发明名称 |
单文档摘要生成方法 |
摘要 |
本发明公开了一种单文档摘要生成方法,包括步骤:对待摘要文档的段落进行聚类,每一个类别为一个语义块;计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每个语义块中表述该部分核心内容的句子;根据核心句子的出现顺序,连接句子,生成摘要。本发明的方法将词的相似度和命名实体识别引入单文档摘要中,提高摘要的提取精度,同时利用了single-pass提高了的聚类的速度,能够准确的提取单文档摘要,对于新闻类型和公告类型的文档具有非常高的摘要准确率。 |
申请公布号 |
CN103136359A |
申请公布日期 |
2013.06.05 |
申请号 |
CN201310072118.0 |
申请日期 |
2013.03.07 |
申请人 |
宁波成电泰克电子信息技术发展有限公司 |
发明人 |
薛世帅;郭成林;彭春林;刘红玉;高云棋;刘丹 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
成都宏顺专利代理事务所(普通合伙) 51227 |
代理人 |
周永宏 |
主权项 |
一种单文档摘要生成方法,具体包括如下步骤:S1.对待摘要文档的段落进行聚类,每一个类别为一个语义块;S2.计算语义块内两两句子的相似度,作为一个句子对另一个句子的打分,得分最高的句子为每个语义块中表述该部分内容的核心句子;S3.根据核心句子的出现顺序,连接句子,生成摘要。 |
地址 |
315040 浙江省宁波市高新区扬帆路999弄5号7-4室 |