发明名称 一种基于海量文本数据的相似度衡量方法
摘要 本发明公开了一种基于海量文本数据的相似度衡量方法,该方法基于语义规则的扩展来衡量文本信息的相似度,具体分为两种扩展方法:全扩展和选择扩展。前者将全部可用语义规则用于扩展字符串,后者结合了全扩展和贪心扩展,给出了一种更加有效的扩展方法。通过实验对比表明,两种扩展方法都取得了非常好的性能,从而验证了本发明的可行性与可靠性。
申请公布号 CN104346394A 申请公布日期 2015.02.11
申请号 CN201310335123.6 申请日期 2013.08.02
申请人 中国人民大学 发明人 陆嘉恒
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京中创阳光知识产权代理有限责任公司 11003 代理人 尹振启
主权项 一种基于海量文本数据的相似度衡量方法,其特征在于,所述方法包括:步骤A:对于给定的字符串S<sub>1</sub>和S<sub>2</sub>,利用全扩展,选择规则集R中的规则,分别获得其对应的扩展集合S<sub>1</sub>′与S<sub>2</sub>′;步骤B:衡量扩展集合S<sub>1</sub>′与S<sub>2</sub>′的相似度,作为原始字符串S<sub>1</sub>和S<sub>2</sub>的相似度。
地址 100872 北京市海淀区中关村大街59号中国人民大学信息楼427