发明名称 |
文档集摘要获取方法及装置 |
摘要 |
本发明公开了一种文档集摘要获取方法及装置,以改善文档集摘要的获取效果。该方法提取文档集中各个文档中包含的各个句子,组成句子集合;基于文档集中的文档和句子集合中的句子之间的文本相似度,确定句子集合中各个句子的重要性权重值;根据确定的重要性权重值,按照重要性权重值由高至低的选择顺序,选择规定数目的句子组成文档集摘要。 |
申请公布号 |
CN101751425A |
申请公布日期 |
2010.06.23 |
申请号 |
CN200810239344.2 |
申请日期 |
2008.12.10 |
申请人 |
北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司 |
发明人 |
万小军;杨建武;肖建国 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
黄志华 |
主权项 |
一种文档集摘要获取方法,其特征在于,包括:提取文档集中各个文档中包含的各个句子,组成句子集合;基于文档集中的文档和句子集合中的句子之间的文本相似度,确定句子集合中各个句子的重要性权重值;根据确定的重要性权重值,按照重要性权重值由高至低的选择顺序,选择规定数目的句子组成文档集摘要。 |
地址 |
100871 北京市海淀区颐和园路5号 |