当前位置: 产品中心 > 图书内容加工平台
  概述

    本软件可将图书、期刊、报纸、文档的PDF、PS版式文件加工处理为结构化、碎片化的流式文件XML等。软件提供高效的自动化处理和完善的可视化人工干预操作。可用于电子书(如ePub)制作、数据库建设等,协助出版单位在传统出版基础上快速打通数字出版的瓶颈。

    主要应用于:

  • PS、PDF转XML(例如docbook规范)
  • PS、PDF转EPUB
  •   平台特性

    1、全面的输入格式支持

    • PDF:支持单层PDF、双层PDF。由于各种格式均可转为PDF,不需要为每种格式单独开发,就共享了PDF内容加工的所有特性。鉴于支持PDF至关重要,我们在系统中配备了三套PDF解析引擎,最大程度地兼容了各种PDF可能存在的问题。系统可以不依赖Acrobat独立运行。对PDF解析的正确性和效果可以达到Acrobat标准。
    • PS:为了方便用户,和充分利用PS中版面结构信息,系统支持直接打开PS。支持的PS包括方正全系列(书版、维思、飞腾3、飞腾4、飞腾5、创艺、文合等)、华光全系列、以Adobe为代表的标准PS。能有效处理PS内嵌字体、内嵌图片、EPS图、艺术字、花边、图片裁剪、公式、字体映射等。无需另行提供页面图。

     

    2、基于模板的自定义标引界面

    • 自定义要标引的字段。
    • 自定义标引字段的布局。
    • 自定义字段控件类型,支持单选、多选、列表、文件、分类树、文本编辑、超文本编辑(支持字号、字体、样式调整)等。

     

    3、全面的输出能力

    • 支持输出主要的文件格式:包括TEXT、WORD、HTML、XML等。
    • 自定义输出模板:根据不同的项目需要自定义输出模板,控制输出的内容和格式。
    • 自定义输出文件名称及文件夹组织:可以按日期、版次、序号等变量来自动命名和层次化组织。
    • 同时支持多种输出:一次反解标引,同时多种输出,满足多个需求。例如一种格式加载到数据库用于检索,另一种格式上传用于原版展示。
    • 多种输出途径:本地文件及打包、HTTP上传、FTP上传、WEB Service上传、加载到数据库。
    • 全面的输出内容:头版或封面的导读信息,目录链接信息;图片、文字、坐标等。

     

    4、自动分析

    • 版面分析(版面理解):利用版式数据中存在的版式信息,如:位置、字体、字号、颜色、辅助信息、版式风格等,辅以语义分析,提取版式数据的逻辑结构,将无序、无结构的数据,组织成有序、有结构的数据。 针对报纸版面:可以从复杂版面中提取必要的文字和排版信息,自动判定排版方向、合并正文块,自动还原正文阅读顺序,自动关联文章标题和正文,并进行附图与图说、文章与附图之间的自动关联。 针对图书版面:自动进行版心定位、页眉页脚和页码处理,自动进行目录提取、章节切分,进行参考文献等辅助信息的条目化处理。
    • 文档结构识别:即文章或章节的分析。从书签、目录页或内容页进行分析,文章或章节的拆分,并生成目录信息。
    • 格式分析:单词、行、段落的分析。PDF文件几乎没有格式信息,PS也经常缺乏完整的格式信息。本系统提供了一个高精度的格式分析算法。
    • 文章或章节分析:从书签、目录页或内容页进行分析,文章或章节的拆分,并生成目录信息。
    • 字段分析:报纸字段如标题、引题、副题、作者、来源等,期刊字段如标题、作者、作者单位、关键字、编号、内容摘要等,图书CIP元数据如书名、作者、责任编辑、出版单位、ISBN、开本、定价、发行单位、内容提要等。

     

    5、高效的生产效率析

    • 减少录入:默认值、可选值、值继承、全局字段、变量自动取值等。
    • 自动查错:检查空值、唯一性、多值、正则表达式。
    • 自动标引:通用关键字自动标引,基于简单规则的自动分类;也可以集成专业的自动分类、自动摘要组件。
    • 备份恢复:一本书往往一次做不完,可以备份工作状态,下次恢复后继续。
    • 多人协作:报纸版面大,时效性强,可以多人分工,分别处理不同版面;期刊、图书可以多人分工,分别处理不同部分。
    • 连版的批量拆分。
    • 自定义快捷键。

     

    6、开放性、灵活性及可扩展性

        可定制的标引方案、输出方案、分类法,多种上传方式,便于针对不同的数据或应用,快速定制,满足不同项目的需要,与不同系统进行配合。

      功能列表

    应用说明

    加工内容

    加工说明

    移动出版、数据库出版:在分析内容的逻辑结构的基础上进行碎片化

    图书章节结构识别

    可自定义识别规则。用于章节拆分和建立目录导航。

    图片识别

    插图或废图识别,图题、图注与图片的关联

    表格识别

    三线或框线表格识别,表题、表注与表格关联

    排版格式识别

    段落、空白等格式

    页码识别

    用于原版对照或建立索引项、目录项的定位等

    版芯处理

    过滤页眉、页脚、页边

    文章拆分

    可按指定的章节层次拆分文章

    文章内部结构识别

    如文章的作者、作者单位等

    知识点识别

    知识点识别和提取

    文章元数据标引及分类

    经过标引和专业分类,提升信息附加值。可集成第三方数据挖掘模块(自动分类、摘要、抽取关键词等)。

    索引处理

    识别索引项,建立索引项定位

    补字处理

    补字的识别和表示

    公式处理

    公式的识别和表示

    上、下标处理

    上、下标的识别和表示

    注释处理

    注释识别和表示

    参考文献

    参考文献识别和表示

    英文处理

    英文分词等

    整书处理

    文前、文后处理,整书合并等

    输出格式

    XML,或EPUB,或带结构标签的PDF

    网络出版:提供图书的原版信息,供读者进行原版的全文阅读及搜索,或原版部分内容的免费预览

    每页页面图

    用于原版在线阅读,有大量优点(如无需阅读器、表现形式丰富、DRM灵活、技术简单等)

    每页页面描述XML

    含每个文字及其坐标,用于内容搜索,支持原版高亮显示、原版片段预览

    目录

    带章节缩进格式,并定位到页

    PSPDF,及PDF按章切分

    用于下载阅读

    传统出版:仅提供图书的基本信息供购买者参考

    封面

     

    图书元数据

    来自CIPmarc数据

    目录

    带章节缩进格式