发明名称 一种基于云计算框架的交通大数据清洗方法
摘要 一种基于云计算框架的交通大数据清洗方法,首先,扫描整个数据源,若存在缺失数据,根据相同路段数据所在维的邻近二次均值填充;然后,将具有相似数据变化规律的数据聚成一类,获得该路段数据的聚类中心;最后,新数据匹配距离最小的聚类中心编号,进行异常数据的更新或剔除。本发明在云计算(Hadoop的Map/Reduce)框架下,针对交通数据高维、海量、数据更新快的特点,利用集群系统的并行计算能力来解决面临的海量交通数据的快速清洗问题,能够快速且有效的挖掘交通数据相似性特征,用于清洗异常数据。
申请公布号 CN106202335A 申请公布日期 2016.12.07
申请号 CN201610517414.0 申请日期 2016.06.28
申请人 银江股份有限公司 发明人 温晓岳;沈坚;单振宇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州斯可睿专利事务所有限公司 33241 代理人 王利强
主权项 一种基于云计算平台的交通大数据清洗方法,其特征在于:包括以下步骤:步骤1:缺失数据补全扫描整个数据源,若存在缺失数据,根据相同路段数据所在维的均值填充;需要根据数据产生的位置进行分发,由不同的子节点并行处理;步骤2:聚类获取路段特征数据将具有相似数据变化规律的数据聚成一类,获得该路段数据的特征值,所述特征值为聚类中心为;每个聚类过程由不同节点完成,特征值的获取由reduce步骤完成,步骤如下:步骤2.1:根据路段标号r对数据集τ进行分割,获得N个数据块,然后,每个数据块分割为M个子数据块,获得N×M个子数据块,并分发给子节点;步骤2.2:子节点把数据块分配给N×M个Map函数,每个MAP任务处理一个子数据块;步骤2.3:在Map函数中,首先,对子数据块进行聚类,获得聚类中心c<sub>i</sub>(i=1,2,3,...,K),聚类中心数目K由压缩因子α确定,K=floor(α*N),floor表示向下取整;然后,离散化聚类中心,以道路标号(r)为键值构造数据对象进行分发,数据对象属性包含键值、聚类中心c<sub>i</sub>和中心点数目K、传感器数据集合、数据元素和位置信息,所述键值为路段标号r;步骤2.4:在Reduce函数中,合并多个子数据块的聚类中心,获得特征值x<sub>l</sub>(l=1,2,3,...,K′),K′为特征值个数,步骤为:2.4.1)计算两个聚类中心(c<sub>i</sub>、c<sub>j</sub>)之间的欧式距离l<sub>ij</sub>,获得两个聚类中心之间的最小欧式距离l<sub>min</sub>,l<sub>min</sub>=min(|c<sub>i</sub>‑c<sub>j</sub>|),其中i,j∈K且i≠j,|*|表示欧式距离;2.4.2)特征值计算采用:x<sub>l</sub>=avg(c<sub>1</sub>,c<sub>2</sub>,...,c<sub>k</sub>),k为满足合并条件的聚类中心个数,当多个聚类中心c<sub>k</sub>满足合并条件l<sub>ij</sub><(1+α)*l<sub>min</sub>时,特征值为多个聚类中心的平均值,当一个聚类中心c<sub>k</sub>与其他聚类中心的欧式距离都不满足合并条件时,特征值为它自身;2.4.3)若K′<K,聚类过程结束;反之,调整压缩因子α=α*1.5,扩大压缩因子继续聚类,重新进行步骤2.2到步骤2.4;步骤2.5:将特征值x<sub>l</sub>写入以路段标号为行标的数据集<img file="FDA0001032806560000021.GIF" wi="45" he="54" />到分布式文件系统,完成数据清洗过程。
地址 310012 浙江省杭州市益乐路223号1幢1层