发明名称 一种对报纸版面进行文字阅读顺序恢复的方法
摘要 本发明属于智能文字与图形信息处理中的文档版面理解技术,具体涉及一种基于内容的对报纸版面进行文字阅读顺序恢复的方法。针对现有技术处理复杂报纸版面存在丢失阅读顺序且内容不具有篇章独立性的缺陷,本发明首次对此问题以图论理论进行数学建模,把文字块的邻接关系表示为有向图,并把有向图拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,子序列对应内容的连接即是独立篇章的具有阅读顺序的文字流。利用了语义、空间关系和样式信息,阅读顺序恢复的正确率大大改进且以篇章为单位具有独立性。本方法可应用于带样式文档的版面理解和结构化重构。
申请公布号 CN100568221C 申请公布日期 2009.12.09
申请号 CN200410091434.3 申请日期 2004.11.22
申请人 北京北大方正技术研究院有限公司;北京大学 发明人 贾娟;陈晓鸥;陈堃銶
分类号 G06F17/21(2006.01)I 主分类号 G06F17/21(2006.01)I
代理机构 北京英赛嘉华知识产权代理有限责任公司 代理人 田 明;王达佐
主权项 1.一种对报纸版面进行文字阅读顺序恢复的方法,包括以下步骤:(1)读入带样式版面信息的文档,进行版面分析,把样式相同的文字合并成文字块,并分类为正文文字块和非正文文字块,文字块内部文字的空间关系单一,根据左比右先读、上比下先读的规则把块内文字连接成具有阅读顺序的文字流作为块的内容,非正文文字块孤立于周围文字块,无需考虑与其他文字块的阅读顺序,处理的核心是正文文字块内容间的阅读顺序;(2)以正文文字块为顶点,块的左右邻接关系为有向边建立横向邻接有向图,以块为顶点,块的上下邻接关系为有向边建立纵向邻接有向图,基于这两个有向图并根据空间序列规则建立空间序列有向图,空间序列规则定义为:如果正文文字块L在横向或纵向邻接有向图中是正文文字块m的先驱,则正文文字块L在空间序列上优于正文文字块m;如果正文文字块L在横向邻接有向图中是正文文字块m的先驱,且正文文字块n在纵向邻接有向图中是正文文字块m的先驱,则正文文字块L在空间序列上优于正文文字块n;如果正文文字块L在横向邻接有向图中是正文文字块m的先驱,且正文文字块L在纵向邻接有向图中是正文文字块n的先驱,则正文文字块n在空间序列上优于正文文字块m;(3)对空间序列有向图进行拆分转化,构造加权二分图,二分图边的权值采用自然语言处理技术,由边的两个顶点对应的正文文字块内容的相关度、重叠词汇的局部活跃度、尾词与首词的成词度和词性转移度确定;(4)对加权二分图进行最优匹配,基于最优匹配的结果确定多个连续的正文文字块全序序列;(5)把每个正文文字块序列再根据文字块的样式信息和语义关联信息分割为多个子序列,子序列中文字块的内容按顺序连接起来形成的文字流即是恢复出来的单个文章的独立的文字阅读顺序。
地址 100871北京市海淀区城府路298号方正大厦四楼