发明名称 一种实现数字内容跨终端出版的系统
摘要 本发明公开了一种实现数字内容跨终端出版的系统。包括PDF处理子系统,PDF版面分析与信息抽取子系统,跨终端自适应重组子系统。PDF处理子系统主要任务就是接受用户提交的PDF文档,经过PDF处理引擎,输出结构良好的XML文档。PDF版面分析与信息抽取子系统接受结构良好的XML文档,根据用户界面分析得到的版面分析和信息抽取得到的结果输出具有自描述性的XML文档,即具有语义信息的XML文档。实际上是把抽取规则中的语义项与数据项特征的映射关系转换为语义项与数据项的映射关系。跨终端自适应重组子系统则是实现不同终端的设备特点,实现数字内容在不同终端的展现。本发明可以实现不同终端的自适应的数字内容出版。
申请公布号 CN104090920A 申请公布日期 2014.10.08
申请号 CN201410270214.0 申请日期 2014.06.17
申请人 安徽教育网络出版有限公司 发明人 吴雷;阮怀伟;昌磊;虞勇勇
分类号 G06F17/30(2006.01)I;G06F17/21(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 安徽合肥华信知识产权代理有限公司 34112 代理人 余成俊
主权项 一种实现数字内容跨终端出版的系统,其特征在于:包括PDF处理子系统、PDF版面分析与信息抽取子系统、跨终端自适应重组子系统、日志管理子系统、以及具有版式信息的XML文档库,其中:所述的PDF处理子系统从用户获得PDF文档,然后根据PDF固有的物理结构和逻辑结构,经过PDF处理子系统自带的PDF处理引擎将PDF内容流输出,形成结构良好的XML文档;所述的PDF版面分析与信息抽取子系统,对结构良好的XML文档进行进一步的处理,分析PDF的版面信息,将抽取规则中的语义项与数据项特征的映射关系转换为语义项与数据项的映射关系,利用PDF源码中的版式数据中存在的版式信息,辅以语义分析,提取版式数据的逻辑结构,将无序、无结构的数据组织成有序、有机构的数据,从而提取必要的文字和版式信息,自动判定排版方向、合并正文块,自动还原正文阅读顺序,自动关联文章标题和正文,并进行附图与图说、文章与附图之间的自动关联,自动进行版心定位、页眉页脚和页码处理;所述的跨终端自适应重组子系统,由服务器端根据客户端的请求生成合适阅读终端的页面,下载到移动阅读终端并在终端上进行显示,服务器端负责数字内容的绘制工作,对于PC或者具有较大屏幕的移动阅读终端,服务器端生成原始版面终端,供终端客户端或者通用浏览器实现下载阅读,对于小屏幕的移动阅读终端,服务器端会根据移动阅读终端的具体的设备信息,将存储的流式和结构化数据的XML文档快速重新绘制成客户端页面;所述的日志管理子系统包括日志分析器和用户行为日志数据库,通过检索器建立用户接口,方便用户查询检索信息,将用户的行为记录在用户行为日志数据库中,作为日志分析器的依据,日志管理子系统记录用户在各个子系统中的行为情况,并且将日志情况汇集到日志管理子系统中,用于数据的查询和分析。
地址 230601 安徽省合肥市经济开发区繁华大道西路398号