解决方案

从传统出版到数字出版的衔接

【概述】

    在传统出版流程中,产生了各种格式的电子排版文件。例如,图书排版用方正书版软件,生成.FBD小样;报纸用方正飞腾,生成.FIT文件;期刊用Adobe Indesign,生成.INDD文件;办公文件用MS Word,生成DOC文件等。这些文件可以统称为排版文件,是用排版语言写成的排版命令集合。

    排版文件在用于打印/印刷时,需要转换为版式文件,格式有PDF、PS(PostScript)、大样(如S92等)。版式文件是排版命令执行的最终结果。打印/印刷设备只能解析版式文件而不能解析排版文件,这是因为版式文件的格式是各种不同打印/印刷设备通用的,而排版语言则是各个排版软件自己特有的。排版文件是可编辑、可重排的,而版式文件一般是不可再改变的。PS、PDF都是世界通用、公开的标准,大样则是方正曾经的过渡格式。从排版文件到版式文件,一般只能由相应的排版软件提供输出功能,因为排版语言是该排版软件特有的、不公开的。例如,方正书版2008或更新版本可将FBD、S92输出PDF,Adobe Indesign可将INDD输出PDF,MS Word可将DOC输出PDF,方正飞腾可将FIT输出PS,Adobe Distiller可将PS转PDF。对于没有电子排版文件的纸质历史数据,则可以通过扫描、OCR、校对,生成双层PDF版式文件。

    显然,排版文件由于其专有性,并不能直接用于数字出版。版式文件中,大样文件由于是方正私有的、过渡的,同样不适合。PS文件虽然是公开标准,但是由于过于复杂,缺乏软件支持,也不合适。PDF文件则有很多很好的特性,例如Adobe及其他厂商提供的丰富处理软件和免费阅读器,良好的压缩及阅读性能等,是数字出版的重要格式。但是,PDF并不能满足数字出版的全部甚至主要需求。数字出版的需求,包括电子书阅读和数据库应用。电子书阅读包括版式阅读和流式阅读,数据库应用包括资源数据库和知识数据库。PDF可以满足版式阅读的需求,但是不能满足流式阅读、数据库应用的需求。即使是版式阅读,PDF也不是最佳的方案,很多问题只有版式HTML才能解决。

    我司软件““全能数字出版内容加工平台”、“报刊反解标引工具””等产品,可以将PDF等版式文件加工、转换,生成符合数字出版需要的各种文件,如版式HTML电子书、流式EPUB电子书、资源库XML、知识库XML等。无论版式HTML还是流式HTML,都是HTML。软件产生的结果实际就是HTML或XML,及其各种图片附件,按一定方式命名和一定结构存储或打包。


【流式阅读】

    流式阅读特别适合手机作为阅读终端,可以根据阅读器尺寸自动重排段落,对平板电脑、PC等也同样支持。在智能手机普及的大潮中,流式阅读已经成为另一种必须的重要阅读方式。

    我司软件“全能数字出版内容加工平台”,可以将PDF加工、转换为流式EPUB、MOBI或HTML。EPUB是若干HTML打包,MOBI则是EPUB加密。加工过程以自动批量处理为主、人工检查干预为辅,通过自定义规则批量标注特殊图文块或文字样式、可视化标记、集中检查某类标记等方式极大地提高了加工效率。


【资源库】

    资源库是指将大量图书内容转化为结构化XML及其图片附件,并存储到数据库。资源库可用于图书内容按需重组,或提取某本书的资源转换为EPUB进行展示等。资源库中一本图书的资源有三个特点:1)描述了一本图书的完整内容,而不是部分内容。2)主要是图书本身的内容,而不是衍生的知识。3)用XML标签描述内容元素,侧重于表示而不是显示。

    我司软件“全能数字出版内容加工平台”,可以将PDF加工、转换为资源库的XML。XML本身只是通用的语法约定,具体采用的标签集合则由SCHEMA或DTD约定。在图书领域,我们提供了DOCBOOK作为图书资源加工标准。期刊领域,提供了NLM作为资源加工标准。也可以根据客户需要,个性化定制资源加工方案。


【知识库】

    知识库的作用不在于单本书的应用,而在于大量图书中某种知识的整体利用,例如文章库、条目库、试题库、图片库、表格库等。知识库与资源库相同的地方在于,都是用XML描述内容或知识,都是将大量图书的内容转化为数据库。不同点在于:1)一本图书中提取的知识可能只需要部分内容,某些知识碎片。2)知识不仅仅是图书本身的内容,也包括衍生的知识,如主题分类、关键词抽取等。

    在图书领域,我司软件“全能数字出版内容加工平台”,可以将PDF加工、转换为文章库、条目库、试题库、图片库、表格库的XML。由于不同的项目对知识库的需求区别很大,往往需要个性化定制加工方案。在报纸领域,“报刊反解标引工具”提供了所需功能。在期刊领域,既可采用书版工具,也可采用报版工具。书版软件功能更强大但使用相对复杂,报版相对简单但功能也少一些。