发明名称 |
一种重复数据的检查处理方法 |
摘要 |
本发明公开了一种重复数据的检查处理方法,该方法包括:A、获取待校验数据,初始化待校验数据的数据结构;B、计算获得待校验数据中各条数据的散列码;C、根据各条数据的散列码,检查各条数据之间是否存在重复数据,并根据检查结果更新各条数据的标记码;D、将已更新标记码的各条数据发送到各分布式计算节点中,以供各分布式计算节点比对所述已更新标记码的各条数据与本地数据之间是否存在重复数据;E、将各分布式计算节点比对后的各条数据发送到汇总节点。采用本发明实施例,能缩短海量数据的对比时间,提高数据查找和清理的效率。 |
申请公布号 |
CN104391894A |
申请公布日期 |
2015.03.04 |
申请号 |
CN201410633391.0 |
申请日期 |
2014.11.11 |
申请人 |
广州科腾信息技术有限公司 |
发明人 |
李爱民;陈承志;龙庆麟;梁国辉;熊道勇 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州三环专利代理有限公司 44202 |
代理人 |
颜希文 |
主权项 |
一种重复数据的检查处理方法,其特征在于,包括:A、获取待校验数据,初始化所述待校验数据的数据结构;B、计算获得所述待校验数据中各条数据的散列码;C、根据所述各条数据的散列码,检查所述各条数据之间是否存在重复数据,并根据检查结果更新所述各条数据的标记码;D、将所述已更新标记码的各条数据发送到各分布式计算节点中,以供各分布式计算节点比对所述已更新标记码的各条数据与本地数据之间是否存在重复数据;E、将各分布式计算节点比对后的各条数据发送到汇总节点。 |
地址 |
510656 广东省广州市黄埔大道西平云路163号广电科技大厦8楼803室 |