发明名称 一种基于孤立点挖掘的Hadoop数据清洗方法及系统
摘要 本发明公开了一种基于孤立点挖掘的Hadoop数据清洗方法及系统,方法包括以下步骤:S1、将各种异构数据源的数据加载到Hadoop分布式文件系统中;S2、对Hadoop分布式文件系统的数据进行预处理:拉取Hadoop分布式文件系统的待清洗数据,并挖掘出待清洗数据中属性异常的孤立点,记孤立点个数为N;S3、判断S2得到的孤立点是否满足清洗规则,并对满足清洗规则的孤立点进行清洗;S4、输出S3数据清洗之后的数据。本发明通过孤立点挖掘找出不合理的孤立点,并执行相应的数据清洗动作,能够对孤立点数据进行准确数据清洗,减少重复清洗,提高数据清洗效率,从而保证海量数据清洗的目标。
申请公布号 CN105138650A 申请公布日期 2015.12.09
申请号 CN201510537346.X 申请日期 2015.08.28
申请人 成都康赛信息技术有限公司 发明人 唐雪飞;陈科;吴亚骏;陈安龙;江莹;刘明鸣;胡略;杨桥
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都宏顺专利代理事务所(普通合伙) 51227 代理人 周永宏
主权项 一种基于孤立点挖掘的Hadoop数据清洗方法,其特征在于,包括以下步骤:S1、将各种异构数据源的数据加载到Hadoop分布式文件系统中;S2、对Hadoop分布式文件系统的数据进行预处理:拉取Hadoop分布式文件系统的待清洗数据,并挖掘出待清洗数据中属性异常的孤立点,记孤立点个数为N;S3、判断S2得到的孤立点是否满足清洗规则,并对满足清洗规则的孤立点进行清洗,具体包括以下三种情况:S31、若N个孤立点都满足清洗规则,则根据清洗规则对N个孤立点全部进行数据清洗,并将数据清洗后的数据写回Hadoop分布式文件系统中,并返回步骤S2;S32、若N个孤立点中只有R个孤立点满足清洗规则,则根据清洗规则对R个孤立点进行数据清洗,并将数据清洗后的数据写回Hadoop分布式文件系统中,结束清洗过程,其中,1<R<N;S33、若N个孤立点均不满足清洗规则,则无需进行数据清洗操作,直接结束本次数据清洗过程;S4、输出S3数据清洗之后的数据。
地址 610054 四川省成都市一环路东一段159号电子信息产业大厦410室