发明名称 字符串相似度计算方法及装置以及物资分类方法及装置
摘要 本发明公开了一种字符串相似度计算方法及装置以及物资分类方法及装置,该相似度计算方法包括:计算字符串X与字符串di之间的初始相似度;获取字符串X与字符串di之间的最长公共前缀与最长公共后缀;确定所述最长公共前缀的权重以及所述最长公共后缀的权重;以及计算字符串X与字符串di之间的相似度。通过上述技术方案,针对中文物资名称的特点,本发明给出了一种面向物资分类的中文字符串相似度计算方法(即,动态权重法(DynamicWeight)),其可动态地估计出物资名称字符串的前、后缀的权重,使得同一类别的物资名称具有较高的相似度,提高了物资自动分类的准确率。
申请公布号 CN102298632A 申请公布日期 2011.12.28
申请号 CN201110262493.2 申请日期 2011.09.06
申请人 神华集团有限责任公司 发明人 韩建国;巩军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京润平知识产权代理有限公司 11283 代理人 肖冰滨;南毅宁
主权项 一种字符串相似度计算方法,该方法包括:计算字符串X与字符串di之间的初始相似度Sim,字符串di为属于一集合{C1,C2...Cn}的类别Cj的一字符串,该集合包含多个类别C,n为类别C的个数,每一类别包含多个字符串;获取字符串X与字符串di之间的最长公共前缀PrefixMaxCommon与最长公共后缀SuffixMaxCommon;确定所述最长公共前缀PrefixMaxCommon的权重PW(PrefixMaxCommon,Cj)以及所述最长公共后缀SuffixMaxCommon的权重SW(SuffixMaxCommon,Cj)以及计算字符串X与字符串di之间的相似度SimDynamicWeight(X,di),计算公式如下:SimDynamicWeight(X,di)=Sim+θ*PWMaxCommon*(1‑Sim)+(1‑θ)*SWMaxCommon*(1‑Sim),其中θ为大于0且小于1的合并系数。
地址 100011 北京市东城区安外西滨河路神华大厦