发明名称 一种基于PDF的复杂版面的标引方法
摘要 本发明涉及一种基于PDF的复杂版面的标引方法,属于信息技术领域。现有技术中,对于复杂版面的文章重构往往需要大量的手工操作和调整,费时费力。本发明所述的方法:通过分析和获取PDF上文字信息以及位置、字体、字号等信息,根据相邻、相似的原则进行自动化的文字成块操作;进一步根据字体字号等信息确定文章标题与正文,根据位置信息,并结合少量的人工干预进行正文拼接、正文与标题关联等成文操作,从而使得整个版面上的文章能较快重新构建,同时可以自动获取到该文章所在的版面区域、文章和标题的字体和字号等标引信息,解决了现有技术中文章重新构建费时费力或者效果不理想的问题。
申请公布号 CN101206639B 申请公布日期 2012.05.23
申请号 CN200710179938.4 申请日期 2007.12.20
申请人 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 发明人 徐剑波;董宁
分类号 G06F17/21(2006.01)I 主分类号 G06F17/21(2006.01)I
代理机构 北京天悦专利代理事务所(普通合伙) 11311 代理人 田明;王瑛
主权项 一种基于PDF的复杂版面的标引方法,包括以下步骤:(1)导入报刊版面的PDF文件,对PDF进行分析,获取版面上的全部的文字内容、文字的位置、字体、字号和序号信息,得到一个原始文字块的列表L;(2)按原始文字块的信息,对原始文字块进行聚类,聚类的依据是存在临近关系的文字块加入一个集合,得到多个集合{Si};(3)按照排版类型和原始文字块的位置对每个集合中的原始文字块进行排序,并合并该集合的所有原始文字块,得到合并文字块;(4)按合并文字块的字号标定合并文字块的属性为标题或正文;(5)对多个合并文字块进行再合并,构建文章。
地址 100871 北京市海淀区成府路298号方正大厦