发明名称 一种重复数据的数据质量检测方法及装置
摘要 本发明为一种重复数据的数据质量检测方法及装置,所述方法包括:步骤b,生成模型训练集;步骤c,分析所述模型训练集中的各个组合对,并标记为记录重复或记录不重复;步骤d,计算记录重复的概率,并筛选出概率较大的字段组合作为样本字段组合;步骤e,对待检测数据的值进行分析;步骤f,据进行重复检测,筛选出所有重复字段满足所述样本字段组合的记录组合;所述装置包括与各个步骤相对应的训练集生成单元、样本记录标重单元、样本组合筛选单元、检测数据分析单元和检测数据筛选单元。这样,通过对字段组合进行重复可能性的计算,无需比较任意两条记录的重复可能性,缩短了时间,提高了检测效率;同时也可以检测两条数据部分相同的情况。
申请公布号 CN105488212A 申请公布日期 2016.04.13
申请号 CN201510925893.5 申请日期 2015.12.11
申请人 广州精点计算机科技有限公司 发明人 许飞月;李青海;简宋全;侯大勇;邹立斌
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京隆源天恒知识产权代理事务所(普通合伙) 11473 代理人 闫冬
主权项 一种重复数据的数据质量检测方法,其特征在于,包括:步骤b,对包含多条记录的训练样本的数据值进行分析,生成模型训练集;步骤c,分析所述模型训练集中的各个组合对,并通过人工或算法将所述组合对对应的两条记录标记为记录重复或记录不重复;然后选择是否继续训练,继续则重新确定所述训练样本并返回步骤b,否则进入步骤d;步骤d,计算一个或多个字段重复则记录重复的概率,并筛选出概率较大的字段组合作为样本字段组合;步骤e,对待检测数据的值进行分析,输出每个字段的每个不同值对应的记录编号;步骤f,根据所述样本字段组合对分析过的所述待检测数据进行重复检测,筛选出所有重复字段满足所述样本字段组合的记录组合。
地址 510630 广东省广州市天河北路906高科大厦A-701