一种基于海量文本数据的相似度衡量方法,申请号CN201310335123.6-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于海量文本数据的相似度衡量方法
摘要	本发明公开了一种基于海量文本数据的相似度衡量方法，该方法基于语义规则的扩展来衡量文本信息的相似度，具体分为两种扩展方法：全扩展和选择扩展。前者将全部可用语义规则用于扩展字符串，后者结合了全扩展和贪心扩展，给出了一种更加有效的扩展方法。通过实验对比表明，两种扩展方法都取得了非常好的性能，从而验证了本发明的可行性与可靠性。
申请公布号	CN104346394A	申请公布日期	2015.02.11
申请号	CN201310335123.6	申请日期	2013.08.02
申请人	中国人民大学	发明人	陆嘉恒
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京中创阳光知识产权代理有限责任公司 11003	代理人	尹振启
主权项	一种基于海量文本数据的相似度衡量方法，其特征在于，所述方法包括：步骤A：对于给定的字符串S<sub>1</sub>和S<sub>2</sub>，利用全扩展，选择规则集R中的规则，分别获得其对应的扩展集合S<sub>1</sub>′与S<sub>2</sub>′；步骤B：衡量扩展集合S<sub>1</sub>′与S<sub>2</sub>′的相似度，作为原始字符串S<sub>1</sub>和S<sub>2</sub>的相似度。
地址	100872 北京市海淀区中关村大街59号中国人民大学信息楼427

您可能感兴趣的专利

Buck converter threshold detection for automatic pulse skipping mode

Mobile communication device and adapter module

Solid state variable direction of view endoscope

Twin-shaft gas turbine

金属密封垫圈及调节阀

一种用于钛基微弧氧化的电解质溶液

减少含水泥组合物中的Cr(VI)量的方法以及一种包含水泥和涂布的金属硫酸盐粒子的组合物

一种采用平行环结构的天线

带有棘轮机构的手助腹腔镜密封组件

冷轧且连续退火的高强度钢带材及生产所述钢的方法

半导体器件

消除基因扩增的高表达细胞系

基于地球太阳运行轨迹的单齿形带传动群同步跟踪太阳光自动跟踪装置

旋转式拖把的防止回转结构

在液芯波导内基于光学进行分选的装置

鼠笼式转子及其制造方法

具有多动作运动的电动牙刷

色调剂及色调剂的制造方法