发明名称 一种对报纸版面进行标题与正文逻辑关联的方法
摘要 本发明属于智能文字与图形信息处理技术,具体涉及一种对报纸版面进行标题与正文逻辑关联的方法。针对现有版面理解技术只依赖样式信息分类版面逻辑对象且对多篇章多标题的报纸版面缺乏语义结构提取的缺陷,本发明首次以图论理论进行数学建模,利用二分图匹配模型描述非正文区域集和正文区域集匹配粒度一对一的特性,根据空间关系建立加权二分图,并首次采用自然语言处理技术计算二分图边权值,最优匹配结果的配对饱和顶点作为逻辑关联成功的标题和正文篇章。本发明提出用最优匹配的库恩-曼克勒(Kuhn-Munkres)算法和人工智能相结合来解决标题正文的逻辑关联问题,使得匹配准确率非常高,可应用于历史数据结构化和元数据提取处理中。
申请公布号 CN1320481C 申请公布日期 2007.06.06
申请号 CN200410091432.4 申请日期 2004.11.22
申请人 北京北大方正技术研究院有限公司;北京大学 发明人 贾娟;陈晓鸥;陈堃銶
分类号 G06F17/21(2006.01) 主分类号 G06F17/21(2006.01)
代理机构 北京英赛嘉华知识产权代理有限责任公司 代理人 田明;王达佐
主权项 权利要求书1.一种对报纸版面进行标题与正文逻辑关联的方法,包括以下步骤:(1)读入版面分析后的报纸文档,对每个文字块按字体样式和块中行数量分类为正文文字块和非正文文字块,把正文文字块按阅读顺序和块样式分割成多个内容独立的篇章区域;(2)建立加权二分图,二分图的两个顶点集分别包含所有的非正文文字块和篇章区域,二分图的边与非正文文字块和篇章区域在版面二维空间的相邻关系对应;(3)二分图边的权值采用自然语言处理技术,由顶点对应的非正文文字块内容和篇章区域内容的语义确定,方法是利用标题是文章内容主题摘要的特点,把正文文字块中的文字进行词法分析后得到词集a,共有m个不同的词,并计算词集a中每个词的分散度和共指度,分散度以该词在篇章正文中最后一次出现和第一次出现的句子间距离表示,共指度以该词在篇章中出现的次数表示;同样把非正文文字块中的文字进行词法分析得到词集b,共有n个不同的词,并计算词集b中每个词在篇章正文中的相对分散度和相对共指度,相对分散度以该词在篇章正文中最后一次出现和第一次出现的句子间距离表示,相对共指度以该词在篇章中出现的次数表示;词集a中前n个最大分散度的和作为词集a的总分散度,词集a中前n个最大共指度的和作为词集a的总共指度,词集b中所有相对分散度的和作为词集b的总相对分散度,词集b中所有相对共指度的和作为词集b的总相对共指度,分散系数的计算通过词集b的总相对分散度除以词集a的总分散度得到,共指系数的计算通过词集b的总相对共指度除以词集a的总共指度得到;标题对篇章正文的词覆盖度,以词集b的词在篇章正文中出现的个数除以词集b所有词的个数表示,分散系数、共指系数和词覆盖度的线性加权即为边的权值;(4)对加权二分图利用库恩-曼克勒(Kuhn-Munkres)算法进行最优匹配,最优匹配结果非正文文字块顶点集中的饱和顶点对应的非正文文字块内容即是标题,而与之有边相连的另一个篇章区域顶点集中的饱和顶点对应的就是这个标题所逻辑关联的正文篇章,二者分别作为XML篇章结构中的标题和正文项输出;上述的逻辑关联指的是把报纸版面二维空间上平铺的各个文字块按其语义功能逻辑分类为标题、正文、报头、引语,然后把表示同一消息的标题和正文作为一个结构的项关联起来。
地址 100871北京市海淀区城府路298号方正大厦四楼