发明名称 文档集摘要获取方法及装置
摘要 本发明公开了一种文档集摘要获取方法及装置,以改善文档集摘要的获取效果。该方法提取文档集中各个文档中包含的各个句子,组成句子集合;基于文档集中的文档和句子集合中的句子之间的文本相似度,确定句子集合中各个句子的重要性权重值;根据确定的重要性权重值,按照重要性权重值由高至低的选择顺序,选择规定数目的句子组成文档集摘要。
申请公布号 CN101751425A 申请公布日期 2010.06.23
申请号 CN200810239344.2 申请日期 2008.12.10
申请人 北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司 发明人 万小军;杨建武;肖建国
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 黄志华
主权项 一种文档集摘要获取方法,其特征在于,包括:提取文档集中各个文档中包含的各个句子,组成句子集合;基于文档集中的文档和句子集合中的句子之间的文本相似度,确定句子集合中各个句子的重要性权重值;根据确定的重要性权重值,按照重要性权重值由高至低的选择顺序,选择规定数目的句子组成文档集摘要。
地址 100871 北京市海淀区颐和园路5号