报刊反解标引工具

【概述】

    本软件是一个将PDF、PS等文件进行分析、反解、标引,输出各种XML的工具,为数字报(电子报)制作、报刊资料库建设、手机报制作等提供了一个高效率、功能全的内容加工平台。


【技术特点】

1、全面的输入格式支持

  • PDF:支持单层PDF、双层PDF。由于各种格式均可转为PDF,不需要为每种格式单独开发,就共享了PDF内容加工的所有特性。鉴于支持PDF至关重要,我们在系统中配备了两套PDF解析引擎,最大程度地兼容了各种PDF可能存在的问题。系统可以不依赖Acrobat独立运行。对PDF解析的正确性和效果可以达到Acrobat标准。
  • PS:为了方便用户,和充分利用PS中版面结构信息,系统支持直接打开PS。支持的PS包括方正全系列(书版、维思、飞腾3、飞腾4、飞腾5、创艺、文合等)、华光全系列、以Adobe为代表的标准PS。能有效处理PS内嵌字体、内嵌图片、EPS图、艺术字、花边、图片裁剪、公式、字体映射、乱码修正、字符位置修正等。无需另行提供页面图。

2、基于模板的自定义标引界面

  • 自定义要标引的字段。
  • 自定义标引字段的布局。
  • 自定义字段控件类型,支持单选、多选、列表、文件、分类树、文本编辑、超文本编辑(支持字号、字体、样式调整)等。

3、全面的输出能力

  • 支持输出主要的文件格式:包括TEXT、HTML、XML、EPUB、WORD等。
  • 自定义输出模板:根据不同的项目需要自定义输出模板,控制输出的内容和格式。
  • 自定义输出文件名称及文件夹组织:可以按日期、版次、序号等变量来自动命名和层次化组织。
  • 同时支持多种输出:一次反解标引,同时多种输出,满足多个需求。例如一种格式加载到数据库用于检索,另一种格式上传用于原版展示。
  • 多种输出途径:本地文件及打包、HTTP上传、FTP上传、WEB Service上传、加载到数据库。
  • 全面的输出内容:头版或封面的导读信息,目录链接信息;图片、文字、坐标等。

4、自动分析和处理

  • 版面分析、版面理解:利用版式数据中存在的版式信息,如:位置、字体、字号、颜色、辅助信息、版式风格等,辅以语义分析,提取版式数据的逻辑结构,将无序、无结构的数据,组织成有序、有结构的数据。
  • 字段提取:在自定义特征的基础上提取特定信息。报纸字段如标题、引题、副题、作者、来源等。
  • 格式分析:单词、行、段落、空白的分析。PDF文件几乎没有格式信息,PS也经常缺乏完整的格式信息。本系统提供了一个高精度的格式分析算法。
  • 可集成内容挖掘模块:包括自动摘要、自动分类、自动标引关键词、政治常识校对等。

5、高效的生产效率

  • 减少录入:默认值、可选值、值继承、全局字段、变量自动取值等。
  • 自动查错:检查空值、唯一性、多值、正则表达式。
  • 自动标引:通用的关键词自动标引。
  • 备份恢复:一次做不完,可以备份工作状态,下次恢复后继续。
  • 多人协作:报纸版面大,时效性强,可以多人分工,分别处理不同版面。
  • 自定义快捷键。

6、更多完善的功能

  • 连版的批量拆分。
  • 英文空格分析。
  • PDF原图抽取。
  • 合并处理。
  • 可视化人工干预。

7、开放性、灵活性及可扩展性

    可定制的标引方案、输出方案、分类法,多种上传方式,便于针对不同的数据或应用,快速定制,满足不同项目的需要,与不同系统进行配合。


【特色功能】

  • 支持飞腾5 PS:很多同类产品不支持。
  • 支持PDF:未来趋势,多种识别引擎保证。
  • 支持版面分析(自动划框)。
  • 自动识别图文块类型(标题、正文、图片、表格)。
  • 自动分析段落。
  • 自动抽取元数据(引题、副题、作者等)。
  • 支持自定义分类。
  • 支持电子报、手机报的数据加工。

【应用领域】

  • 数据库建设:报刊资料图文库
  • 电子报制作:支持版面图、热区坐标、多媒体
  • 手机报制作:高度灵活性

【成功案例】

  • 数据库案例:新华社自主报刊10余种、新华社各地分社30余个、专业数据库加工公司数百人使用、人民日报、解放日报、解放军报、文汇报等等。
  • 电子报案例:乌鲁木齐报、人民政协报、文联艺术报、中国交通报、建投数字报、广东电网电子报、冶金报、东方烟草报、高等法院报、新疆日报、平安时报、神木报、西部矿业报、井冈山报、云南日报、西双版纳报等近百家媒体。

【期刊处理】

  • 对期刊内容结构进行自动分析,自动定位每篇文章的起止位置
  • 对所有文章进行自动切分
  • 生成文章的栏目、目录导航信息,并链接到文章位置
  • 结构识别规则可根据出版物的特色进行自定义(如字号、字体、位置、特殊文字等)
  • 自动过滤页眉、页脚、页边
  • 对文章的标题、作者、来源、页码、日期、期号等元数据进行自动识别、关联和提取
  • 识别规则可以根据出版物特定进行定制
  • 支持插图、表格的识别、提取、定位和关联
  • 支持方便的人工标引、分类
  • 集成自动分类、自动摘要等内容挖掘工具(选购)
  • 按文章输出元数据、正文、图片等
  • 按页面输出页面图及页面描述(所有文字、插图及其坐标)
  • 文章段落排版正确,包含必要的空白,图片位置正确,图文混排
  • 输出XML格式可自定义
  • 加工结果可FTP上传,或加载到数据库

【演示截图】