发明名称 用于提取文档结构的方法和装置
摘要 本发明提供了一种用于提取文档结构的方法,包括:确定参考文献信息在版式文件中的位置;从版式文件的位置的版式内容中提取关于参考文献信息的条目。本发明还提供了一种用于提取文档结构的装置,包括:位置模块,用于确定参考文献信息在版式文件中的位置;提取模块,用于从版式文件的位置的版式内容中提取关于参考文献信息的条目。本发明提高了处理参考文献信息的效率。
申请公布号 CN103176956B 申请公布日期 2016.08.03
申请号 CN201110438858.2 申请日期 2011.12.21
申请人 北大方正集团有限公司;方正信息产业控股有限公司;北京方正阿帕比技术有限公司 发明人 董宁;徐剑波;黄文娟
分类号 G06F17/22(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京英赛嘉华知识产权代理有限责任公司 11204 代理人 王达佐
主权项 一种用于提取文档结构的方法,其特征在于,包括:确定参考文献信息在版式文件中的位置,确定参考文献信息在版式文件中的位置包括:在所述版式文件的页面中查找具有关于参考文献信息的关键字;确定查找到所述关键字的页面为所述参考文献信息的开始页;从所述版式文件的所述位置的版式内容中提取关于所述参考文献信息的条目,从所述版式文件的所述位置的版式内容中提取关于所述参考文献信息的条目包括:从所述开始页开始,确定所述参考文献信息在所述版式文件中各个页面中的范围;对于所述范围内的每个栏,根据栏中行的字体进行分类,从具有最多行数的字体类开始,依次对每个字体类尝试提取条目,直到提取条目成功。
地址 100871 北京市海淀区成府路298号方正大厦5层