一种基于簇排列的面向主题或查询的多文档摘要方法,申请号CN200610072587.2-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于簇排列的面向主题或查询的多文档摘要方法
摘要	本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法，属于语言文字处理技术领域。现有的多文档摘要方法，在用户搜索感兴趣的主题时，不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学算法即基于簇排列的算法，该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系，从而使得生成的摘要既能包含文档集的主要信息，又能诠释主题或回答查询，同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求，返回相关的新闻信息，从而得到更好的面向主题或查询的多文档摘要，可以满足不同用户的个性化需求。
申请公布号	CN100418093C	申请公布日期	2008.09.10
申请号	CN200610072587.2	申请日期	2006.04.13
申请人	北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司	发明人	万小军;杨建武;吴於茜;陈晓鸥;肖建国
分类号	G06F17/30(2006.01);G06F17/27(2006.01)	主分类号	G06F17/30(2006.01)
代理机构	北京英赛嘉华知识产权代理有限责任公司	代理人	田明;王达佐
主权项	1. 一种基于簇排列的面向主题或查询的多文档摘要方法，包括以下步骤：(1)读入主题以及文档，或者读入查询以及文档；对主题以及文档进行分句，或者对查询以及文档进行分句；句子集合为<math><mrow><mi>χ</mi><mo>=</mo><mo>{</mo><msub><mi>x</mi><mn>1</mn></msub><mo>,...,</mo><msub><mi>x</mi><mi>p</mi></msub><mo>,</mo><msub><mi>x</mi><mrow><mi>p</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>,...,</mo><msub><mi>x</mi><mi>n</mi></msub><mo>}</mo><mo>&Subset;</mo><msup><mi>R</mi><mi>m</mi></msup><mo>,</mo></mrow></math> 其中x1到xp表示p个从主题或查询中得到的句子，xp+1到xn表示n-p个从文档中得到的句子，计算这n个句子中任意两个句子的相似度，构建句子关系图，其对应的规范化的句子相似矩阵为S；(2)采用簇排列算法迭代计算文档中每个句子的排列值，所述的排列值即初始权重值；(3)对文档中的每个句子进行差异性惩罚，得到每个句子的最终权重值；(4)选择最终权重值大的句子形成摘要。
地址	100871北京市海淀区成府路298号方正大厦

您可能感兴趣的专利

3-醯基胺基苯并喃-2-羧酸衍生物之制法

双环系杂环,含此等化合物之医药组合物,彼等之用途及制备方法

神经退化性疾病之治疗

异酸衍生物

化学化合物

粗制羧酸浆液之纯化方法

有机化合物

经取代的咯啶及相关化合物

经取代之N-芳基杂环、制备其之方法及其作为医药品之用途SUBSTITUTED N-ARYL HETEROCYCLES, PROCESS FOR THEIR PREPARATION AND THEIR USE AS MEDICAMENTS

9-顺视黄酸之制法

自水性混合物中除去不纯物之萃取方法

作为止痛剂之经杂原子取代的乙醯苯胺衍生物类

多层结构之制造方法

超临界流体洁净之负载闸系统

用于改良在电子装置中之电子发射的阳极化处理

环形极化天线及包含该天线之复合天线

天线屏蔽器去极化补偿之装置及方法

经稳定之有机发光二极体(OLED)装置

光编码器光源