发明名称 |
一种版式文档中脚注识别方法及脚注与脚注引用关联方法 |
摘要 |
本发明公开了一种版式文档中脚注识别方法及脚注与脚注引用关联方法。本方法为:1)从版式文档中抽取底层信息;2)根据底层信息从该版式文档中识别出候选脚注区域;3)将识别出的每一候选脚注区域构造一特征向量,然后对特征向量进行聚类,根据聚类结果确定一目标特征向量,计算其与每一候选脚注区域的特征向量之间的相似度,剔除相似度小于设定阈值的候选脚注区域;4)对经步骤3)筛选后得到的候选脚注区域中的脚注条目进行分割;5)将分割后得到的脚注条目的序号与该版式文档的正文中的脚注序号进行匹配,如果序号对应则将该脚注条目与对应脚注序号建立关联。不依赖于特定的特征与规则,在识别不同样式脚注时,具有更高的正确率和召回率。 |
申请公布号 |
CN106326193A |
申请公布日期 |
2017.01.11 |
申请号 |
CN201510342271.X |
申请日期 |
2015.06.18 |
申请人 |
北京大学 |
发明人 |
高良才;黎斯达;汤帜 |
分类号 |
G06F17/21(2006.01)I;G06K9/20(2006.01)I |
主分类号 |
G06F17/21(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
司立彬 |
主权项 |
一种版式文档中脚注识别方法,其步骤为:1)从版式文档中抽取底层信息;2)根据该底层信息从该版式文档中识别出候选脚注区域;3)将识别出的每一候选脚注区域构造一特征向量,然后对特征向量进行聚类,根据聚类结果确定一目标特征向量,计算目标特征向量与每一候选脚注区域的特征向量之间的相似度,剔除相似度小于设定阈值的候选脚注区域。 |
地址 |
100871 北京市海淀区颐和园路5号北京大学 |