一种基于孤立点挖掘的Hadoop数据清洗方法及系统,申请号CN201510537346.X-传众专利搜索

发明名称	一种基于孤立点挖掘的Hadoop数据清洗方法及系统
摘要	本发明公开了一种基于孤立点挖掘的Hadoop数据清洗方法及系统，方法包括以下步骤：S1、将各种异构数据源的数据加载到Hadoop分布式文件系统中；S2、对Hadoop分布式文件系统的数据进行预处理：拉取Hadoop分布式文件系统的待清洗数据，并挖掘出待清洗数据中属性异常的孤立点，记孤立点个数为N；S3、判断S2得到的孤立点是否满足清洗规则，并对满足清洗规则的孤立点进行清洗；S4、输出S3数据清洗之后的数据。本发明通过孤立点挖掘找出不合理的孤立点，并执行相应的数据清洗动作，能够对孤立点数据进行准确数据清洗，减少重复清洗，提高数据清洗效率，从而保证海量数据清洗的目标。
申请公布号	CN105138650A	申请公布日期	2015.12.09
申请号	CN201510537346.X	申请日期	2015.08.28
申请人	成都康赛信息技术有限公司	发明人	唐雪飞;陈科;吴亚骏;陈安龙;江莹;刘明鸣;胡略;杨桥
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	成都宏顺专利代理事务所(普通合伙) 51227	代理人	周永宏
主权项	一种基于孤立点挖掘的Hadoop数据清洗方法，其特征在于，包括以下步骤：S1、将各种异构数据源的数据加载到Hadoop分布式文件系统中；S2、对Hadoop分布式文件系统的数据进行预处理：拉取Hadoop分布式文件系统的待清洗数据，并挖掘出待清洗数据中属性异常的孤立点，记孤立点个数为N；S3、判断S2得到的孤立点是否满足清洗规则，并对满足清洗规则的孤立点进行清洗，具体包括以下三种情况：S31、若N个孤立点都满足清洗规则，则根据清洗规则对N个孤立点全部进行数据清洗，并将数据清洗后的数据写回Hadoop分布式文件系统中，并返回步骤S2；S32、若N个孤立点中只有R个孤立点满足清洗规则，则根据清洗规则对R个孤立点进行数据清洗，并将数据清洗后的数据写回Hadoop分布式文件系统中，结束清洗过程，其中，1<R<N；S33、若N个孤立点均不满足清洗规则，则无需进行数据清洗操作，直接结束本次数据清洗过程；S4、输出S3数据清洗之后的数据。
地址	610054 四川省成都市一环路东一段159号电子信息产业大厦410室