发明名称 文档相似度计算方法、近似重复文档检测方法及装置
摘要 本发明涉及一种文档相似度计算方法、近似重复文档检测方法及装置,所述计算方法包括:对两个待检测文档分别进行切词处理,得到所述待检测文档各自的分词集合;计算两个所述分词集合中所有分词对的编辑相似度,每个所述分词对的两个分词分别来源于两个所述分词集合;在所述所有分词对中所述编辑相似度满足要求的分词对之间建立边,所述编辑相似度为对应分词对的边的权值,得到加权偶图;计算所述加权偶图的最大加权匹配值;利用所述最大加权匹配值,计算所述待检测文档之间的相似度。本发明提供的文档相似度计算方法、近似重复文档检测方法及装置,准确率高,能有效识别包含分词集编辑错误的近似重复文本,提高近似重复文档检测准确度,降低计算复杂度,优化计算效率。
申请公布号 CN104252445A 申请公布日期 2014.12.31
申请号 CN201310260390.1 申请日期 2013.06.26
申请人 华为技术有限公司;清华大学 发明人 李国良;冯建华;魏建生
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京亿腾知识产权代理事务所 11309 代理人 陈霁
主权项 一种文档相似度计算方法,其特征在于,所述方法包括:对两个待检测文档分别进行切词处理,得到所述待检测文档各自的分词集合;计算两个所述分词集合中所有分词对的编辑相似度,每个所述分词对的两个分词分别来源于两个所述分词集合;在所述所有分词对中所述编辑相似度满足要求的分词对之间建立边,所述编辑相似度为对应分词对的边的权值,得到加权偶图;计算所述加权偶图的最大加权匹配值;利用所述最大加权匹配值,计算所述待检测文档之间的相似度。
地址 518129 广东省深圳市龙岗区坂田华为总部办公楼