发明名称 | 一种基于函数依赖的数据清洗方法 | ||
摘要 | 本发明公开了一种基于函数依赖的数据清洗方法,其特征在于,包括:对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;对于数据转换后的原始数据,提取其属性的自依赖函数特征;对于数据转换后的原始数据,提取其属性之间的互依赖函数;根据自依赖函数特征和互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据,判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动。本发明能够解决大数据中“脏数据”问题,为后续的大数据分析挖掘提供高质量的数据。 | ||
申请公布号 | CN105447079A | 申请公布日期 | 2016.03.30 |
申请号 | CN201510742638.7 | 申请日期 | 2015.11.04 |
申请人 | 华中科技大学 | 发明人 | 莫益军;曾志华;谭辉 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 华中科技大学专利中心 42201 | 代理人 | 朱仁玲 |
主权项 | 一种基于函数依赖的数据清洗方法,其特征在于,包括以下步骤:(1)对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;(2)对于数据转换后的原始数据,提取其属性的自依赖函数特征;(3)对于数据转换后的原始数据,提取其属性之间的互依赖函数;(4)根据步骤(2)的自依赖函数特征和步骤(3)的互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据。(5)判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动;若采用互依赖函数清洗,则将不符合条件的样本根据互依赖函数确定的相关函数,以已校准的属性为基础对另一属性进行校准恢复。 | ||
地址 | 430074 湖北省武汉市洪山区珞喻路1037号 |