发明名称 一种面向大数据的数据清洗系统及方法
摘要 一种面向大数据的数据清洗系统及方法,该系统应用层包括数据解析抽取模块、相似连接模块、相似子图聚集模块、实体采样模块、概率计算与实体查询模块,存储层利用Hadoop提供的分布式存储工具HDFS对数据清洗过程中产生的结构化数据记录、相似数据记录对、相似连通子图进行存储,利用Hadoop提供的分布式存储工具HBase对清洗后的结构化数据记录进行存储。该方法包括获取待清洗数据;相似连接;相似子图聚集;实体采样;概率计算与实体查询。本发明是一种面向大数据的数据清洗系统与不确定数据确定化方法,解决了以往的集中式的相似性连接无法适应大规模数据运算的问题,充分利用图以及相关知识创造性的完成大数据清洗,并为海量数据分析提供了数据准备。
申请公布号 CN104317801A 申请公布日期 2015.01.28
申请号 CN201410483041.0 申请日期 2014.09.19
申请人 东北大学 发明人 王国仁;信俊昌;聂铁铮;赵相国;邓诗卓;季航旭;侯喆;梁帅
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 沈阳东大知识产权代理有限公司 21109 代理人 朱光林
主权项 一种面向大数据的数据清洗系统,其特征在于:包括应用层与存储层;应用层包括数据解析抽取模块、相似连接模块、相似子图聚集模块、实体采样模块、概率计算与实体查询模块;    数据解析抽取模块用于对不同数据源的xml文件形式数据进行解析抽取,得到结构化数据记录,不同数据源的xml文件形式数据为数据集成过程中的不确定数据;    相似连接模块用于对结构化数据记录进行相似连接,即相似度大于设定阈值的两条结构化数据记录为相似数据记录对,该两条相似数据记录对应的id构成相似数据记录id对,得到相似数据记录id对及其相似度;    相似子图聚集模块用于将所有相似数据记录id对聚集在一起,形成相似连通子图,相似连通子图中的顶点代表结构化数据记录;    实体采样模块用于对相似连通子图进行多次重复采样,得到若干个实体采样结果;    概率计算与实体查询模块用于计算实体采样结果中每个顶点存在的概率从而完成数据清洗,根据需求对清洗后的结构化数据记录查询;存储层利用Hadoop提供的分布式存储工具HDFS对数据清洗过程中产生的结构化数据记录、相似数据记录对、相似连通子图进行存储,利用Hadoop提供的分布式存储工具HBase对清洗后的结构化数据记录进行存储,便于查询。
地址 110819 辽宁省沈阳市和平区文化路3号巷11号