发明名称 |
一种基于随机算法的分布式实体匹配方法 |
摘要 |
本发明公开了一种基于随机算法的分布式实体匹配方法,包括如下步骤:数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;签名生成步骤:根据实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;匹配对生成步骤:在分布式节点内对签名重排并分组,从组中提取匹配对;相似度计算步骤:通过计算海明距离得到匹配对的相似度。本发明提出了用于减少冗余相似度计算的解决方案,可以有效提升分布式环境下对半结构化和非结构化数据的实体匹配效率,在准确率得到保证的同时,处理速度明显高过目前较先进的实体匹配方法。 |
申请公布号 |
CN106326217A |
申请公布日期 |
2017.01.11 |
申请号 |
CN201510330555.7 |
申请日期 |
2015.06.15 |
申请人 |
华东师范大学 |
发明人 |
张蓉;晁平复;高竹 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海麦其知识产权代理事务所(普通合伙) 31257 |
代理人 |
董红曼 |
主权项 |
一种基于随机算法的分布式实体匹配方法,其特征在于,包括如下步骤:数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;签名生成步骤:根据所述实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对所述签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;匹配对生成步骤:在分布式节点内对所述签名重排并分组,从组中提取匹配对;相似度计算步骤:通过计算海明距离得到所述匹配对的相似度。 |
地址 |
200062 上海市普陀区中山北路3663号 |