发明名称 一种基于簇排列的面向主题或查询的多文档摘要方法
摘要 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。
申请公布号 CN100418093C 申请公布日期 2008.09.10
申请号 CN200610072587.2 申请日期 2006.04.13
申请人 北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司 发明人 万小军;杨建武;吴於茜;陈晓鸥;肖建国
分类号 G06F17/30(2006.01);G06F17/27(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京英赛嘉华知识产权代理有限责任公司 代理人 田明;王达佐
主权项 1. 一种基于簇排列的面向主题或查询的多文档摘要方法,包括以下步骤:(1)读入主题以及文档,或者读入查询以及文档;对主题以及文档进行分句,或者对查询以及文档进行分句;句子集合为<math><mrow><mi>&chi;</mi><mo>=</mo><mo>{</mo><msub><mi>x</mi><mn>1</mn></msub><mo>,...,</mo><msub><mi>x</mi><mi>p</mi></msub><mo>,</mo><msub><mi>x</mi><mrow><mi>p</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>,...,</mo><msub><mi>x</mi><mi>n</mi></msub><mo>}</mo><mo>&Subset;</mo><msup><mi>R</mi><mi>m</mi></msup><mo>,</mo></mrow></math> 其中x1到xp表示p个从主题或查询中得到的句子,xp+1到xn表示n-p个从文档中得到的句子,计算这n个句子中任意两个句子的相似度,构建句子关系图,其对应的规范化的句子相似矩阵为S;(2)采用簇排列算法迭代计算文档中每个句子的排列值,所述的排列值即初始权重值;(3)对文档中的每个句子进行差异性惩罚,得到每个句子的最终权重值;(4)选择最终权重值大的句子形成摘要。
地址 100871北京市海淀区成府路298号方正大厦