报刊反解标引工具
【概述】
本软件是一个将PDF、PS等文件进行分析、反解、标引,输出各种XML的工具,为数字报(电子报)制作、报刊资料库建设、手机报制作等提供了一个高效率、功能全的内容加工平台。
【技术特点】
1、全面的输入格式支持
- PDF:支持单层PDF、双层PDF。由于各种格式均可转为PDF,不需要为每种格式单独开发,就共享了PDF内容加工的所有特性。鉴于支持PDF至关重要,我们在系统中配备了两套PDF解析引擎,最大程度地兼容了各种PDF可能存在的问题。系统可以不依赖Acrobat独立运行。对PDF解析的正确性和效果可以达到Acrobat标准。
- PS:为了方便用户,和充分利用PS中版面结构信息,系统支持直接打开PS。支持的PS包括方正全系列(书版、维思、飞腾3、飞腾4、飞腾5、创艺、文合等)、华光全系列、以Adobe为代表的标准PS。能有效处理PS内嵌字体、内嵌图片、EPS图、艺术字、花边、图片裁剪、公式、字体映射、乱码修正、字符位置修正等。无需另行提供页面图。
2、基于模板的自定义标引界面
- 自定义要标引的字段。
- 自定义标引字段的布局。
- 自定义字段控件类型,支持单选、多选、列表、文件、分类树、文本编辑、超文本编辑(支持字号、字体、样式调整)等。
3、全面的输出能力
- 支持输出主要的文件格式:包括TEXT、HTML、XML、EPUB、WORD等。
- 自定义输出模板:根据不同的项目需要自定义输出模板,控制输出的内容和格式。
- 自定义输出文件名称及文件夹组织:可以按日期、版次、序号等变量来自动命名和层次化组织。
- 同时支持多种输出:一次反解标引,同时多种输出,满足多个需求。例如一种格式加载到数据库用于检索,另一种格式上传用于原版展示。
- 多种输出途径:本地文件及打包、HTTP上传、FTP上传、WEB Service上传、加载到数据库。
- 全面的输出内容:头版或封面的导读信息,目录链接信息;图片、文字、坐标等。
4、自动分析和处理
- 版面分析、版面理解:利用版式数据中存在的版式信息,如:位置、字体、字号、颜色、辅助信息、版式风格等,辅以语义分析,提取版式数据的逻辑结构,将无序、无结构的数据,组织成有序、有结构的数据。
- 字段提取:在自定义特征的基础上提取特定信息。报纸字段如标题、引题、副题、作者、来源等。
- 格式分析:单词、行、段落、空白的分析。PDF文件几乎没有格式信息,PS也经常缺乏完整的格式信息。本系统提供了一个高精度的格式分析算法。
- 可集成内容挖掘模块:包括自动摘要、自动分类、自动标引关键词、政治常识校对等。
5、高效的生产效率
- 减少录入:默认值、可选值、值继承、全局字段、变量自动取值等。
- 自动查错:检查空值、唯一性、多值、正则表达式。
- 自动标引:通用的关键词自动标引。
- 备份恢复:一次做不完,可以备份工作状态,下次恢复后继续。
- 多人协作:报纸版面大,时效性强,可以多人分工,分别处理不同版面。
- 自定义快捷键。
6、更多完善的功能
- 连版的批量拆分。
- 英文空格分析。
- PDF原图抽取。
- 合并处理。
- 可视化人工干预。
7、开放性、灵活性及可扩展性
可定制的标引方案、输出方案、分类法,多种上传方式,便于针对不同的数据或应用,快速定制,满足不同项目的需要,与不同系统进行配合。
【特色功能】
- 支持飞腾5 PS:很多同类产品不支持。
- 支持PDF:未来趋势,多种识别引擎保证。
- 支持版面分析(自动划框)。
- 自动识别图文块类型(标题、正文、图片、表格)。
- 自动分析段落。
- 自动抽取元数据(引题、副题、作者等)。
- 支持自定义分类。
- 支持电子报、手机报的数据加工。
【应用领域】
- 数据库建设:报刊资料图文库
- 电子报制作:支持版面图、热区坐标、多媒体
- 手机报制作:高度灵活性
【成功案例】
- 数据库案例:新华社自主报刊10余种、新华社各地分社30余个、专业数据库加工公司数百人使用、人民日报、解放日报、解放军报、文汇报等等。
- 电子报案例:乌鲁木齐报、人民政协报、文联艺术报、中国交通报、建投数字报、广东电网电子报、冶金报、东方烟草报、高等法院报、新疆日报、平安时报、神木报、西部矿业报、井冈山报、云南日报、西双版纳报等近百家媒体。
【期刊处理】
- 对期刊内容结构进行自动分析,自动定位每篇文章的起止位置
- 对所有文章进行自动切分
- 生成文章的栏目、目录导航信息,并链接到文章位置
- 结构识别规则可根据出版物的特色进行自定义(如字号、字体、位置、特殊文字等)
- 自动过滤页眉、页脚、页边
- 对文章的标题、作者、来源、页码、日期、期号等元数据进行自动识别、关联和提取
- 识别规则可以根据出版物特定进行定制
- 支持插图、表格的识别、提取、定位和关联
- 支持方便的人工标引、分类
- 集成自动分类、自动摘要等内容挖掘工具(选购)
- 按文章输出元数据、正文、图片等
- 按页面输出页面图及页面描述(所有文字、插图及其坐标)
- 文章段落排版正确,包含必要的空白,图片位置正确,图文混排
- 输出XML格式可自定义
- 加工结果可FTP上传,或加载到数据库
【演示截图】