发明名称 |
一种数据去重方法及系统 |
摘要 |
本发明公开一种数据去重方法及系统。所述方法包括:将所述待处理数据的元数据信息与所述数据平台的已存储数据的元数据信息进行比对,得到元数据信息相似度;比对所述第一数据描述信息与所述第二数据描述信息,得到数据描述相似度;对所述元数据信息相似度和所述数据描述相似度进行加权平均,得到总相似度;按照所述总相似度对所述已存储数据进行排序;将排序后的所述已存储数据中的前n个数据标记为疑似重复数据。采用本发明的方法或系统,可以缩小数据去重范围,从而有效降低人工进行数据去重的工作量,使人工进行数据去重的工作量被控制在可接受的范围内。 |
申请公布号 |
CN104809256A |
申请公布日期 |
2015.07.29 |
申请号 |
CN201510266694.8 |
申请日期 |
2015.05.22 |
申请人 |
数据堂(北京)科技股份有限公司 |
发明人 |
王大亮;杨琪 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
王戈;王宝筠 |
主权项 |
一种数据去重方法,其特征在于,包括:获取上传至数据平台的待处理数据;确定所述待处理数据的元数据信息;将所述待处理数据的元数据信息与所述数据平台的已存储数据的元数据信息进行比对,得到元数据信息相似度;获取所述待处理数据的第一数据描述信息;获取所述已存储数据的第二数据描述信息;比对所述第一数据描述信息与所述第二数据描述信息,得到数据描述相似度;对所述元数据信息相似度和所述数据描述相似度进行加权平均,得到总相似度;按照所述总相似度对所述已存储数据进行排序;将排序后的所述已存储数据中的前n个数据标记为疑似重复数据。 |
地址 |
100191 北京市海淀区中关村东路18号C1507-1509 |