发明名称 |
一种基于孤立点挖掘的Hadoop数据清洗方法及系统 |
摘要 |
本发明公开了一种基于孤立点挖掘的Hadoop数据清洗方法及系统,方法包括以下步骤:S1、将各种异构数据源的数据加载到Hadoop分布式文件系统中;S2、对Hadoop分布式文件系统的数据进行预处理:拉取Hadoop分布式文件系统的待清洗数据,并挖掘出待清洗数据中属性异常的孤立点,记孤立点个数为N;S3、判断S2得到的孤立点是否满足清洗规则,并对满足清洗规则的孤立点进行清洗;S4、输出S3数据清洗之后的数据。本发明通过孤立点挖掘找出不合理的孤立点,并执行相应的数据清洗动作,能够对孤立点数据进行准确数据清洗,减少重复清洗,提高数据清洗效率,从而保证海量数据清洗的目标。 |
申请公布号 |
CN105138650A |
申请公布日期 |
2015.12.09 |
申请号 |
CN201510537346.X |
申请日期 |
2015.08.28 |
申请人 |
成都康赛信息技术有限公司 |
发明人 |
唐雪飞;陈科;吴亚骏;陈安龙;江莹;刘明鸣;胡略;杨桥 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
成都宏顺专利代理事务所(普通合伙) 51227 |
代理人 |
周永宏 |
主权项 |
一种基于孤立点挖掘的Hadoop数据清洗方法,其特征在于,包括以下步骤:S1、将各种异构数据源的数据加载到Hadoop分布式文件系统中;S2、对Hadoop分布式文件系统的数据进行预处理:拉取Hadoop分布式文件系统的待清洗数据,并挖掘出待清洗数据中属性异常的孤立点,记孤立点个数为N;S3、判断S2得到的孤立点是否满足清洗规则,并对满足清洗规则的孤立点进行清洗,具体包括以下三种情况:S31、若N个孤立点都满足清洗规则,则根据清洗规则对N个孤立点全部进行数据清洗,并将数据清洗后的数据写回Hadoop分布式文件系统中,并返回步骤S2;S32、若N个孤立点中只有R个孤立点满足清洗规则,则根据清洗规则对R个孤立点进行数据清洗,并将数据清洗后的数据写回Hadoop分布式文件系统中,结束清洗过程,其中,1<R<N;S33、若N个孤立点均不满足清洗规则,则无需进行数据清洗操作,直接结束本次数据清洗过程;S4、输出S3数据清洗之后的数据。 |
地址 |
610054 四川省成都市一环路东一段159号电子信息产业大厦410室 |