发明名称 |
提取版式文档目录的方法及装置 |
摘要 |
本发明提供了一种提取版式文档目录的方法及装置。根据本发明的提取版式文档目录的方法包括:查找页面中的页码块;提取页码块所在行的文本串;将所提取的文本串与正文章节标题匹配;根据匹配成功率判断所述页面是否为目录页;以及提取被判断为目录页的页面的目录条目。通过匹配成功率判断所述页面是否目录页,提高了提取目录页条目相关信息的效率以及成功率。 |
申请公布号 |
CN102541929B |
申请公布日期 |
2014.04.02 |
申请号 |
CN201010615308.9 |
申请日期 |
2010.12.22 |
申请人 |
北大方正集团有限公司;方正信息产业控股有限公司;北京方正阿帕比技术有限公司 |
发明人 |
董宁;徐剑波;黄文娟 |
分类号 |
G06F17/30(2006.01)I;G06F17/22(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京天昊联合知识产权代理有限公司 11112 |
代理人 |
陈源;罗建民 |
主权项 |
一种提取版式文档目录的方法,其特征在于包括:查找页面中的页码块;提取页码块所在行的文本串;将所提取的文本串与正文章节标题匹配;根据匹配成功率判断所述页面是否为目录页;以及提取被判断为目录页的页面的目录条目;其中,所述查找页面中的页码块的步骤包括;提取页面中的数字块;查找数字块中的页码块;按照页码块的非数字内容的一致性、或数字和字符的间距的一致性,进行聚类分析;针对每个聚类分别进行垂直投影,查看页码块的列信息是否存在分栏现象;以及确定页码块在所在行的位置。 |
地址 |
100871 北京市海淀区成府路298号中关村方正大厦5层 |