发明名称 一种海量数据预处理方法及其系统
摘要 本发明涉及一种海量数据预处理方法及其系统,通过以相关系数作为数据降维和压缩的依据,有效的利用的属性之间的相关性。将海量数据以时间片轮转的方式进行存储和顺序编号,通过随机数生成算法和取模运算后,确定抽样样本的编号。提取样本后进行相关性的分析,将属性间的相关系数作为属性相关性矩阵的值,通过相关系数的计算得到体现属性相关性的权值。权值越大即属性的相关性越强,反之亦然。以相关性分析为基础,将相关性强的属性在降维过程中吸收掉,将相关性弱的属性进行聚类分析,有效的利用属性相关性,在保持原数据内在信息的基础上,实现海量数据的降维和压缩。
申请公布号 CN102799682B 申请公布日期 2015.01.07
申请号 CN201210260651.5 申请日期 2012.07.25
申请人 中国电力科学研究院;国家电网公司 发明人 李伟伟;邓松;张涛;林为民;时坚;汪晨;周诚;管小娟;朱其军;蒋静;刘时敏;钱炫宇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京安博达知识产权代理有限公司 11271 代理人 徐国文
主权项 一种海量数据预处理方法,其特征在于,所述方法包括如下步骤: (1)将海量数据以时间片轮转的方式进行存储,存储为文本文件并从小到大顺序编号; (2)通过随机数生成算法和取模运算后,得到时间片编号,将此编号的时间片作为海量数据属性相关性分析的抽样样本; (3)计算所述抽样样本中各个属性间的相关系数,建立属性相关系数为权值的矩阵; (4)将所述矩阵通过和值计算得到各个属性的相关性权值w<sub>i</sub>; (5)将属性的相关性权值w<sub>i</sub>,按照由大到小顺序进行排序; (6)选取所述相关性权值w<sub>i</sub>由大到小的前n个属性为要压缩的属性; (7)将选取的n个属性从属性集中去除,留q‑n个属性,完成数据降维的过程;其中,n为要降的维度,q为属性个数; (8)选取所述相关性权值w<sub>i</sub>由小到大的前m个属性;其中m+n&lt;=q;m为聚类分析的维数; (9)将所述m个属性进行聚类分析,设定压缩后的数据数量,采用k中心算法对其进行计算分析,从而使数据压缩为设定的量,并使压缩后的数据具有代表性且保持数据间的相互关系。 
地址 100192 北京市海淀区清河小营东路15号
您可能感兴趣的专利