PDF转EPUB，PDF转XML，图书结构化、碎片化加工软件，报刊反解标引

产品中心

报刊反解标引工具

【概述】

本软件是一个将PDF、PS等文件进行分析、反解、标引，输出各种XML的工具，为数字报（电子报）制作、报刊资料库建设、手机报制作等提供了一个高效率、功能全的内容加工平台。

【技术特点】

1、全面的输入格式支持

PDF：支持单层PDF、双层PDF。由于各种格式均可转为PDF，不需要为每种格式单独开发，就共享了PDF内容加工的所有特性。鉴于支持PDF至关重要，我们在系统中配备了两套PDF解析引擎，最大程度地兼容了各种PDF可能存在的问题。系统可以不依赖Acrobat独立运行。对PDF解析的正确性和效果可以达到Acrobat标准。
PS：为了方便用户，和充分利用PS中版面结构信息，系统支持直接打开PS。支持的PS包括方正全系列（书版、维思、飞腾3、飞腾4、飞腾5、创艺、文合等）、华光全系列、以Adobe为代表的标准PS。能有效处理PS内嵌字体、内嵌图片、EPS图、艺术字、花边、图片裁剪、公式、字体映射、乱码修正、字符位置修正等。无需另行提供页面图。

2、基于模板的自定义标引界面

3、全面的输出能力

4、自动分析和处理

版面分析、版面理解：利用版式数据中存在的版式信息，如：位置、字体、字号、颜色、辅助信息、版式风格等，辅以语义分析，提取版式数据的逻辑结构，将无序、无结构的数据，组织成有序、有结构的数据。
字段提取：在自定义特征的基础上提取特定信息。报纸字段如标题、引题、副题、作者、来源等。
格式分析：单词、行、段落、空白的分析。PDF文件几乎没有格式信息，PS也经常缺乏完整的格式信息。本系统提供了一个高精度的格式分析算法。
可集成内容挖掘模块：包括自动摘要、自动分类、自动标引关键词、政治常识校对等。

5、高效的生产效率

6、更多完善的功能

7、开放性、灵活性及可扩展性

可定制的标引方案、输出方案、分类法，多种上传方式，便于针对不同的数据或应用，快速定制，满足不同项目的需要，与不同系统进行配合。

【特色功能】

【应用领域】

【成功案例】

数据库案例：新华社自主报刊10余种、新华社各地分社30余个、专业数据库加工公司数百人使用、人民日报、解放日报、解放军报、文汇报等等。
电子报案例：乌鲁木齐报、人民政协报、文联艺术报、中国交通报、建投数字报、广东电网电子报、冶金报、东方烟草报、高等法院报、新疆日报、平安时报、神木报、西部矿业报、井冈山报、云南日报、西双版纳报等近百家媒体。

【期刊处理】

【演示截图】