发明名称 大数据一致性对比方法和系统
摘要 本发明提供了一种大数据一致性对比方法和系统,所述方法包括:将第一待对比数据转换为第一结构化数据,以及将第二待对比数据转换为第二结构化数据;利用分布式并行计算构架对所述第一结构化数据和第二结构化数据进行分层对比,所述分层对比包括在不同层级对所述第一结构化数据和第二结构化数据中的数据统计信息进行对比和对所述第一结构化数据和第二结构化数据中的内容进行对比;若所述第一结构化数据和第二结构化数据中的数据统计信息不相同,则直接返回对比不一致的结果;若所述第一结构化数据和第二结构化数据中的数据统计信息和内容都相同,则返回对比一致的结果。采用该方法和系统,能够实现了高效的对无序的大数据进行一致性对比。
申请公布号 CN104036029B 申请公布日期 2016.04.13
申请号 CN201410302021.9 申请日期 2014.06.27
申请人 深圳市腾讯计算机系统有限公司 发明人 徐天华;贺波;梁栋;蔡伟岗;张宝亮
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州华进联合专利商标代理有限公司 44224 代理人 何平;邓云鹏
主权项 一种大数据一致性对比方法,所述方法包括:将第一待对比数据转换为第一结构化数据,以及将第二待对比数据转换为第二结构化数据;利用分布式并行计算构架对所述第一结构化数据和第二结构化数据进行分层对比,所述分层对比包括在不同层级对所述第一结构化数据和第二结构化数据中的数据统计信息进行对比和对所述第一结构化数据和第二结构化数据中的内容进行对比;所述第一结构化数据为第一库表,所述第二结构化数据为第二库表,所述数据统计信息包括记录条数;所述利用分布式并行计算架构对所述第一结构化数据和第二结构化数据进行分层对比的步骤包括:判断所述第一库表和第二库表中的记录条数是否相同,若是,则对所述第一库表和第二库表进行内容对比,若所述第一库表和第二库表中的内容不相同,则返回对比不一致的结果,若所述第一库表和第二库表中的内容相同,则返回对比一致的结果;若所述第一库表和第二库表中的记录条数不相同,则直接返回对比不一致的结果。
地址 518000 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼