发明名称 |
一种同时抽取文档摘要和关键词的方法及系统 |
摘要 |
本发明涉及一种同时抽取文档摘要和关键词的方法,属于语言文字处理技术。现有的方法将文档摘要和关键词抽取当作两个不相关的任务,分别对这两个任务进行处理。然而这两个任务具有相同的本质,本发明所述的方法能够利用其相同本质同时完成对文档摘要和关键词的抽取。本方法利用图学模型综合利用文档中句子与句子、句子与词以及词与词之间的关系,对句子和词的重要性进行准确评估,最终分别采用重要的句子和词作为文档的摘要和关键词。采用本发明所述的方法,一方面能够同时提取文档摘要和关键词,另一方面能够取得更好的摘要与关键词抽取效果。本方法可广泛应用于文本信息处理与挖掘等领域。 |
申请公布号 |
CN101398814A |
申请公布日期 |
2009.04.01 |
申请号 |
CN200710122530.3 |
申请日期 |
2007.09.26 |
申请人 |
北京大学;北大方正集团有限公司;北京方正电子政务技术有限公司 |
发明人 |
万小军;杨建武;吴於茜;肖建国 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 |
代理人 |
郭润湘 |
主权项 |
1、一种同时抽取文档摘要和关键词的方法,包括以下步骤:(1)读入文档,对文档进行分句、分词,得到句子集合以及词集合;(2)分别构建句子-句子、词语-词语以及句子-词语关系图;(3)计算句子和词语的权重;(4)挑选权重大的句子进行冗余消除,得到文档摘要;挑选权重大的词语进行组合,得到文档关键词。 |
地址 |
100871北京市海淀区颐和园路5号 |