发明名称 一种快速从大规模数据中筛选离群数据的方法
摘要 本发明提供一种快速从大规模数据中筛选离群数据的方法,是充分考虑到大规模数据离群数据挖掘计算时间及空间复杂度的特点,采用随机采样来减小参与计算的样本数量,采用并行计算来加速运算速度,从而有效的解决了大规模数据离群数据筛选中对计算时间和内存空间的要求较高的问题,从而实现快速且有效的离群数据筛选。
申请公布号 CN104346445B 申请公布日期 2016.09.07
申请号 CN201410584552.1 申请日期 2014.10.28
申请人 浪潮电子信息产业股份有限公司 发明人 王恩东;张东;吴楠;韦鹏;付兴旺
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南信达专利事务所有限公司 37100 代理人 姜明
主权项 一种快速从大规模数据中筛选离群数据的方法, 其特征在于采用随机采样来减小参与计算的样本数量,采用并行计算来加速运算速度,从而有效的解决了大规模数据离群数据筛选中对计算时间和内存空间的要求较高的问题,从而实现快速且有效的离群数据筛选,包括以下几个步骤:1)数据预处理对数据进行预处理,消除数据间的不一致性同时归一化各个数据,具体操作包括:数据清理,数据集成,数据变换,数据归约,得到的特征矩阵记为T,其大小为N*M,其中N为所有样本的数目,M为原始特征属性的个数;2)特征选取与变换特征选取是从所有属性筛选去掉对后续操作贡献较小甚至于没有贡献的属性,特征变换是利用当前属性通过变换得到新特征空间的属性,得到的特征矩阵记为Ts, 其大小为N*m,其中N为所有样本的数目,m为筛选和变换之后属性的个数;3)初始化变量记两个长度为N的全零向量分别为Co、Cs,分别用于保存后续计算中离群因子的相加之和及样本筛选次数;4)迭代通过以下迭代更新向量Co及Cs,迭代到一定次数k即终止:(1)随机选择一个子样本集,大小固定为n;(2)向量Cs中对应元素数值加1;(3)从矩阵Ts中筛选对应行,并计算该矩阵对应的局部孤立性因子;(4)向量Co对应数值分别加上步得到的局部孤立性因子;5)离群指数计算通过向量Co及Cs计算得到向量COI为离群因子,计算公式为:COI=Co/Cs;6)离群数据筛选按照向量COI对应数值从大到小的顺序,筛选前l个样本作为离群数据。
地址 250100 山东省济南市高新区舜雅路1036号