青空文库

青空文库:https://www.aozora.gr.jp/

1 起因

起因是看到藤井太洋的这个推。在这之前我略听说过青空文库,但并不了解它具体的运作方式和注记方案。青空文库本身的存在可以参见它的维基百科页面,这里不在赘述。

我在考虑是不是可以借助类似的注记方式来记录中文的文章和书籍。

2 青空文库注记方案

文库本身提供作品的纯文本 txt 文件,以及一份 XHTML 文件。但最基础的源文件是 txt 纯文本。这份文本文件使用青空文库定义的注记方案(后面简称“青空注记”或者“注记”)来记录书籍内容本身,还有原本书籍的一些排版信息。

2.1 青空注记与其他 markup 的关键区别

2.1.1 org-mode

跟 org-mode 的通用相比,青空注记更专注于日文和日文出版物的书面排版信息。

2.1.2 markdown

青空注记在定义上并不与 HTML 一一对应,尽管它有这方面的实现。

2.1.3 LaTeX

青空注记(至少最初)的目的不是指示输出,而是用读者可读的方式来记录原本的排版。举个不是很准确的例子,红楼梦的文本里,我们用

母女姊妹深敘些離別情景,【庚辰雙行夾批:「深」字妙!】及家務私情。

来记录中间有批文。读者如果只读纯文本的部分也可以,不妨碍理解。而以后拿着这个文本再次排版的时候,把批文排成淡色、红色、小字都可以。但这个对批文的标注本身并不指导它需要被排版成什么样子,只是记录最早的原本上这里有一段批注。

2.2 工具

排版指南里提到了一个 ruby 写的 txt2xhtml 的工具,另外 aozorahack 的 Github 上也能找到一个 aozora2html 的 ruby 工具。我已经试过后者是可用的。

不过工具只能生成对应的 HTML 文件,相关的 CSS 还有其他的部分我在这儿找到了,虽然并不确定这个 repo 与青空官方的联系。

3 中文

我还没试过直接把注记的工具用在中文上,直觉上我觉得编码上肯定会出问题。青空文库因为历史的原因,依然使用 Shift JIS 编码而不是 Unicode。而如果从现在这个时间点新开启的项目和文档的话,使用 UTF8 编码几乎是必然的选择。

Author: sinxccc

Created: 2021-04-25 Sun 17:58