本软件可将图书、期刊、报纸、文档的PDF、PS版式文件加工处理为结构化、碎片化的流式文件XML等。软件提供高效的自动化处理和完善的可视化人工干预操作。可用于电子书(如ePub)制作、数据库建设等,协助出版单位在传统出版基础上快速打通数字出版的瓶颈。
主要应用于:
1、全面的输入格式支持
- PDF:支持单层PDF、双层PDF。由于各种格式均可转为PDF,不需要为每种格式单独开发,就共享了PDF内容加工的所有特性。鉴于支持PDF至关重要,我们在系统中配备了三套PDF解析引擎,最大程度地兼容了各种PDF可能存在的问题。系统可以不依赖Acrobat独立运行。对PDF解析的正确性和效果可以达到Acrobat标准。
- PS:为了方便用户,和充分利用PS中版面结构信息,系统支持直接打开PS。支持的PS包括方正全系列(书版、维思、飞腾3、飞腾4、飞腾5、创艺、文合等)、华光全系列、以Adobe为代表的标准PS。能有效处理PS内嵌字体、内嵌图片、EPS图、艺术字、花边、图片裁剪、公式、字体映射等。无需另行提供页面图。
2、基于模板的自定义标引界面
- 自定义要标引的字段。
- 自定义标引字段的布局。
- 自定义字段控件类型,支持单选、多选、列表、文件、分类树、文本编辑、超文本编辑(支持字号、字体、样式调整)等。
3、全面的输出能力
- 支持输出主要的文件格式:包括TEXT、WORD、HTML、XML等。
- 自定义输出模板:根据不同的项目需要自定义输出模板,控制输出的内容和格式。
- 自定义输出文件名称及文件夹组织:可以按日期、版次、序号等变量来自动命名和层次化组织。
- 同时支持多种输出:一次反解标引,同时多种输出,满足多个需求。例如一种格式加载到数据库用于检索,另一种格式上传用于原版展示。
- 多种输出途径:本地文件及打包、HTTP上传、FTP上传、WEB Service上传、加载到数据库。
- 全面的输出内容:头版或封面的导读信息,目录链接信息;图片、文字、坐标等。
4、自动分析
- 版面分析(版面理解):利用版式数据中存在的版式信息,如:位置、字体、字号、颜色、辅助信息、版式风格等,辅以语义分析,提取版式数据的逻辑结构,将无序、无结构的数据,组织成有序、有结构的数据。 针对报纸版面:可以从复杂版面中提取必要的文字和排版信息,自动判定排版方向、合并正文块,自动还原正文阅读顺序,自动关联文章标题和正文,并进行附图与图说、文章与附图之间的自动关联。 针对图书版面:自动进行版心定位、页眉页脚和页码处理,自动进行目录提取、章节切分,进行参考文献等辅助信息的条目化处理。
- 文档结构识别:即文章或章节的分析。从书签、目录页或内容页进行分析,文章或章节的拆分,并生成目录信息。
- 格式分析:单词、行、段落的分析。PDF文件几乎没有格式信息,PS也经常缺乏完整的格式信息。本系统提供了一个高精度的格式分析算法。
- 文章或章节分析:从书签、目录页或内容页进行分析,文章或章节的拆分,并生成目录信息。
- 字段分析:报纸字段如标题、引题、副题、作者、来源等,期刊字段如标题、作者、作者单位、关键字、编号、内容摘要等,图书CIP元数据如书名、作者、责任编辑、出版单位、ISBN、开本、定价、发行单位、内容提要等。
5、高效的生产效率析
- 减少录入:默认值、可选值、值继承、全局字段、变量自动取值等。
- 自动查错:检查空值、唯一性、多值、正则表达式。
- 自动标引:通用关键字自动标引,基于简单规则的自动分类;也可以集成专业的自动分类、自动摘要组件。
- 备份恢复:一本书往往一次做不完,可以备份工作状态,下次恢复后继续。
- 多人协作:报纸版面大,时效性强,可以多人分工,分别处理不同版面;期刊、图书可以多人分工,分别处理不同部分。
- 连版的批量拆分。
- 自定义快捷键。
6、开放性、灵活性及可扩展性
可定制的标引方案、输出方案、分类法,多种上传方式,便于针对不同的数据或应用,快速定制,满足不同项目的需要,与不同系统进行配合。
应用说明 |
加工内容 |
加工说明 |
移动出版、数据库出版:在分析内容的逻辑结构的基础上进行碎片化 |
图书章节结构识别 |
可自定义识别规则。用于章节拆分和建立目录导航。 |
图片识别 |
插图或废图识别,图题、图注与图片的关联 |
|
表格识别 |
三线或框线表格识别,表题、表注与表格关联 |
|
排版格式识别 |
段落、空白等格式 |
|
页码识别 |
用于原版对照或建立索引项、目录项的定位等 |
|
版芯处理 |
过滤页眉、页脚、页边 |
|
文章拆分 |
可按指定的章节层次拆分文章 |
|
文章内部结构识别 |
如文章的作者、作者单位等 |
|
知识点识别 |
知识点识别和提取 |
|
文章元数据标引及分类 |
经过标引和专业分类,提升信息附加值。可集成第三方数据挖掘模块(自动分类、摘要、抽取关键词等)。 |
|
索引处理 |
识别索引项,建立索引项定位 |
|
补字处理 |
补字的识别和表示 |
|
公式处理 |
公式的识别和表示 |
|
上、下标处理 |
上、下标的识别和表示 |
|
注释处理 |
注释识别和表示 |
|
参考文献 |
参考文献识别和表示 |
|
英文处理 |
英文分词等 |
|
整书处理 |
文前、文后处理,整书合并等 |
|
输出格式 |
XML,或EPUB,或带结构标签的PDF等 |
|
网络出版:提供图书的原版信息,供读者进行原版的全文阅读及搜索,或原版部分内容的免费预览 |
每页页面图 |
用于原版在线阅读,有大量优点(如无需阅读器、表现形式丰富、DRM灵活、技术简单等) |
每页页面描述XML |
含每个文字及其坐标,用于内容搜索,支持原版高亮显示、原版片段预览 |
|
目录 |
带章节缩进格式,并定位到页 |
|
PS转PDF,及PDF按章切分 |
用于下载阅读 |
|
传统出版:仅提供图书的基本信息供购买者参考 |
封面 |
|
图书元数据 |
来自CIP或marc数据 |
|
目录 |
带章节缩进格式 |