一种海量数据预处理方法及其系统,申请号CN201210260651.5-传众专利搜索

发明名称	一种海量数据预处理方法及其系统
摘要	本发明涉及一种海量数据预处理方法及其系统，通过以相关系数作为数据降维和压缩的依据，有效的利用的属性之间的相关性。将海量数据以时间片轮转的方式进行存储和顺序编号，通过随机数生成算法和取模运算后，确定抽样样本的编号。提取样本后进行相关性的分析，将属性间的相关系数作为属性相关性矩阵的值，通过相关系数的计算得到体现属性相关性的权值。权值越大即属性的相关性越强，反之亦然。以相关性分析为基础，将相关性强的属性在降维过程中吸收掉，将相关性弱的属性进行聚类分析，有效的利用属性相关性，在保持原数据内在信息的基础上，实现海量数据的降维和压缩。
申请公布号	CN102799682B	申请公布日期	2015.01.07
申请号	CN201210260651.5	申请日期	2012.07.25
申请人	中国电力科学研究院;国家电网公司	发明人	李伟伟;邓松;张涛;林为民;时坚;汪晨;周诚;管小娟;朱其军;蒋静;刘时敏;钱炫宇
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京安博达知识产权代理有限公司 11271	代理人	徐国文
主权项	一种海量数据预处理方法，其特征在于，所述方法包括如下步骤： (1)将海量数据以时间片轮转的方式进行存储，存储为文本文件并从小到大顺序编号； (2)通过随机数生成算法和取模运算后，得到时间片编号，将此编号的时间片作为海量数据属性相关性分析的抽样样本； (3)计算所述抽样样本中各个属性间的相关系数，建立属性相关系数为权值的矩阵； (4)将所述矩阵通过和值计算得到各个属性的相关性权值w<sub>i</sub>； (5)将属性的相关性权值w<sub>i</sub>，按照由大到小顺序进行排序； (6)选取所述相关性权值w<sub>i</sub>由大到小的前n个属性为要压缩的属性； (7)将选取的n个属性从属性集中去除，留q‑n个属性，完成数据降维的过程；其中，n为要降的维度，q为属性个数； (8)选取所述相关性权值w<sub>i</sub>由小到大的前m个属性；其中m+n<＝q；m为聚类分析的维数； (9)将所述m个属性进行聚类分析，设定压缩后的数据数量，采用k中心算法对其进行计算分析，从而使数据压缩为设定的量，并使压缩后的数据具有代表性且保持数据间的相互关系。
地址	100192 北京市海淀区清河小营东路15号