发明名称 |
一种基于海量文本数据的相似度衡量方法 |
摘要 |
本发明公开了一种基于海量文本数据的相似度衡量方法,该方法基于语义规则的扩展来衡量文本信息的相似度,具体分为两种扩展方法:全扩展和选择扩展。前者将全部可用语义规则用于扩展字符串,后者结合了全扩展和贪心扩展,给出了一种更加有效的扩展方法。通过实验对比表明,两种扩展方法都取得了非常好的性能,从而验证了本发明的可行性与可靠性。 |
申请公布号 |
CN104346394A |
申请公布日期 |
2015.02.11 |
申请号 |
CN201310335123.6 |
申请日期 |
2013.08.02 |
申请人 |
中国人民大学 |
发明人 |
陆嘉恒 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京中创阳光知识产权代理有限责任公司 11003 |
代理人 |
尹振启 |
主权项 |
一种基于海量文本数据的相似度衡量方法,其特征在于,所述方法包括:步骤A:对于给定的字符串S<sub>1</sub>和S<sub>2</sub>,利用全扩展,选择规则集R中的规则,分别获得其对应的扩展集合S<sub>1</sub>′与S<sub>2</sub>′;步骤B:衡量扩展集合S<sub>1</sub>′与S<sub>2</sub>′的相似度,作为原始字符串S<sub>1</sub>和S<sub>2</sub>的相似度。 |
地址 |
100872 北京市海淀区中关村大街59号中国人民大学信息楼427 |