发明名称 |
文档相似度计算方法、近似重复文档检测方法及装置 |
摘要 |
本发明涉及一种文档相似度计算方法、近似重复文档检测方法及装置,所述计算方法包括:对两个待检测文档分别进行切词处理,得到所述待检测文档各自的分词集合;计算两个所述分词集合中所有分词对的编辑相似度,每个所述分词对的两个分词分别来源于两个所述分词集合;在所述所有分词对中所述编辑相似度满足要求的分词对之间建立边,所述编辑相似度为对应分词对的边的权值,得到加权偶图;计算所述加权偶图的最大加权匹配值;利用所述最大加权匹配值,计算所述待检测文档之间的相似度。本发明提供的文档相似度计算方法、近似重复文档检测方法及装置,准确率高,能有效识别包含分词集编辑错误的近似重复文本,提高近似重复文档检测准确度,降低计算复杂度,优化计算效率。 |
申请公布号 |
CN104252445A |
申请公布日期 |
2014.12.31 |
申请号 |
CN201310260390.1 |
申请日期 |
2013.06.26 |
申请人 |
华为技术有限公司;清华大学 |
发明人 |
李国良;冯建华;魏建生 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京亿腾知识产权代理事务所 11309 |
代理人 |
陈霁 |
主权项 |
一种文档相似度计算方法,其特征在于,所述方法包括:对两个待检测文档分别进行切词处理,得到所述待检测文档各自的分词集合;计算两个所述分词集合中所有分词对的编辑相似度,每个所述分词对的两个分词分别来源于两个所述分词集合;在所述所有分词对中所述编辑相似度满足要求的分词对之间建立边,所述编辑相似度为对应分词对的边的权值,得到加权偶图;计算所述加权偶图的最大加权匹配值;利用所述最大加权匹配值,计算所述待检测文档之间的相似度。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |