发明名称 提取版式文档目录的方法及装置
摘要 本发明提供了一种提取版式文档目录的方法及装置。根据本发明的提取版式文档目录的方法包括:查找页面中的页码块;提取页码块所在行的文本串;将所提取的文本串与正文章节标题匹配;根据匹配成功率判断所述页面是否为目录页;以及提取被判断为目录页的页面的目录条目。通过匹配成功率判断所述页面是否目录页,提高了提取目录页条目相关信息的效率以及成功率。
申请公布号 CN102541929B 申请公布日期 2014.04.02
申请号 CN201010615308.9 申请日期 2010.12.22
申请人 北大方正集团有限公司;方正信息产业控股有限公司;北京方正阿帕比技术有限公司 发明人 董宁;徐剑波;黄文娟
分类号 G06F17/30(2006.01)I;G06F17/22(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京天昊联合知识产权代理有限公司 11112 代理人 陈源;罗建民
主权项 一种提取版式文档目录的方法,其特征在于包括:查找页面中的页码块;提取页码块所在行的文本串;将所提取的文本串与正文章节标题匹配;根据匹配成功率判断所述页面是否为目录页;以及提取被判断为目录页的页面的目录条目;其中,所述查找页面中的页码块的步骤包括;提取页面中的数字块;查找数字块中的页码块;按照页码块的非数字内容的一致性、或数字和字符的间距的一致性,进行聚类分析;针对每个聚类分别进行垂直投影,查看页码块的列信息是否存在分栏现象;以及确定页码块在所在行的位置。
地址 100871 北京市海淀区成府路298号中关村方正大厦5层