发明名称 |
相似度计算的方法及装置 |
摘要 |
本发明公开了一种相似度计算的方法及装置,涉及互联网技术领域,为解决现有技术中相似度算法无法有效识别相同信息的问题而发明。本发明的方法包括:分别对第一字符串和第二字符串进行切片,获得多个第一分片和多个第二分片;为第一字符串建立第一分片列表,第一分片列表中记录有每个第一分片的使用频率值;为第二字符串建立第二分片列表,第二分片列表中记录有每个第二分片的使用频率值;计算第一分片在第一字符串与第二字符串中的使用频率值的差异值;计算第二分片在第一字符串与第二字符串中的使用频率值的差异值;计算两个差异值的平均值,获得第一字符串与第二字符串之间的相似程度结果。本发明适合应用在互联网信息传播分析的过程中。 |
申请公布号 |
CN106598986A |
申请公布日期 |
2017.04.26 |
申请号 |
CN201510674518.8 |
申请日期 |
2015.10.16 |
申请人 |
北京国双科技有限公司 |
发明人 |
侯明午 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鼎佳达知识产权代理事务所(普通合伙) 11348 |
代理人 |
王伟锋;刘铁生 |
主权项 |
一种相似度计算的方法,其特征在于,所述方法包括:分别对第一字符串和第二字符串进行切片,获得多个第一分片和多个第二分片;为所述第一字符串建立第一分片列表,所述第一分片列表中记录有每个第一分片的使用频率值;为所述第二字符串建立第二分片列表,所述第二分片列表中记录有每个第二分片的使用频率值;计算所述第一分片在所述第一字符串与所述第二字符串中的使用频率值的差异值;计算所述第二分片在所述第一字符串与所述第二字符串中的使用频率值的差异值;计算两个差异值的平均值,获得所述第一字符串与所述第二字符串之间的相似程度结果。 |
地址 |
100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间 |