发明名称 用于加速的数据质量增强的方法和系统
摘要 本发明的实施例解决了如下技术问题,即标识、收集和管理用于由改善企业方案(其范围从数据管控到业务智能)的较差质量数据的规则。在本发明的特定实施例中,提供了一种用于产生针对数据集合的数据质量规则的方法。生成候选条件功能依赖关系集合,包括在数据集合的本体中的特定相关度内的属性的候选种子。然后,向数据应用候选条件功能依赖关系,并在其到达静止状态之前对其进行完善,其中在该静止状态处,尽管候选条件功能依赖关系所应用于的数据已经稳定,也不对该候选条件功能依赖关系进行完善。所得到的完善后的候选条件功能依赖关系是针对数据集合和其他相关的数据集合的数据增强规则。在本发明的另一特定实施例中,提供了一种用于开发数据质量规则的计算机系统,其具有规则库、数据质量规则发现引擎以及用户接口。
申请公布号 CN102257496B 申请公布日期 2016.09.28
申请号 CN201080002524.4 申请日期 2010.12.06
申请人 埃森哲环球服务有限公司 发明人 P·Z-C·耶;C·A·普里
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市金杜律师事务所 11256 代理人 吴立明;姜彦
主权项 一种用于产生针对数据集合的数据质量规则的计算机实现的方法,所述数据集合包括多个记录,所述多个记录包括数据点的属性的值,所述方法包括:通过使用所述数据集合的本体、基于候选种子集合来生成候选条件功能依赖关系集合,其中所述本体包括指示所述属性中的哪些属性相关的链接,所述候选种子包括通过所述链接中的不止一个链接而被链接的相关属性;单独向所述数据集合应用所述候选条件功能依赖关系,以获得针对所述候选条件功能依赖关系的对应结果值集合;如果所述对应结果值集合不具有达到预定期望的结果签名,则单独完善所述候选条件功能依赖关系,所述完善包括,对于所述条件功能依赖关系中的每一个:递增所述多个记录的第一子集中与条件功能依赖关系相一致的记录的第一计数,其中所述条件功能依赖关系的模式元组中的所有值与同所述条件功能依赖关系相一致的记录中的相应值相匹配;递增所述多个记录的所述第一子集中与所述条件功能依赖关系不一致的记录的第二计数,其中模式元组中与所述条件功能依赖关系的前项对应的所有值与同所述条件功能依赖关系不一致的记录中的相应值相匹配,但是所述模式元组中与所述条件功能依赖关系的后项对应的值与同所述条件功能依赖关系不一致的记录中的相应值不匹配;递增所述多个记录的所述第一子集中与所述条件功能依赖关系并非一致并且与所述条件功能依赖关系并非不一致的记录的第三计数;确定基于所述第一计数和第三计数的第一测量是否满足第一阈值,其中如果所述第一测量不满足所述第一阈值,则一个条件从所述条件功能依赖关系的所述前项被移除,并且所述完善继而针对所述多个记录的第二子集而继续;以及确定基于所述第二计数和第三计数的第二测量是否满足第二阈值,其中如果所述第二测量不满足所述第二阈值,则所述第二测量被降低,并且所述完善继而针对所述多个记录的所述第二子集而继续;当所述候选条件功能依赖关系单独到达静止状态时,单独终止对所述候选条件功能依赖关系的所述完善和应用;以及选择所述候选条件功能依赖关系的相关集合以用作针对所述数据集合的所述数据质量规则。
地址 爱尔兰都柏林
您可能感兴趣的专利