发明名称 一种计算机快速海量数据聚类处理方法
摘要 一种计算机快速海量数据聚类处理方法,所述方法首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果。本方法一次执行过程可直接获得任意聚类数的各个子类数据对象的具体构成、子类数据对象数目及其质心,并可查询得到各个子类内部数据对象分布概况与及其特征,极大地方便了海量数据的快速有效处理。
申请公布号 CN103744935A 申请公布日期 2014.04.23
申请号 CN201310748302.2 申请日期 2013.12.31
申请人 华北电力大学(保定) 发明人 李中;杨宏;张珂
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 石家庄冀科专利商标事务所有限公司 13108 代理人 李羡民;高锡明
主权项 1.一种计算机快速海量数据聚类处理方法,其特征是,所述方法以计算机作为数据处理、存储的工具,处理时,计算机首先对待分析数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象,如此反复操作直至数据对象的数目等于用户期待的聚类分类数,最后通过查询合并记录获取聚类处理结果,所述方法包括以下步骤:a.数据对象预处理对所有数目为<img file="875856DEST_PATH_IMAGE001.GIF" wi="18" he="18" />的待分析数据对象进行预处理,预处理的具体方法是:对于任一给定数据维度是<img file="937353DEST_PATH_IMAGE002.GIF" wi="18" he="16" />的待聚类数据对象<img file="752863DEST_PATH_IMAGE003.GIF" wi="98" he="28" />添加2个数值型属性值<img file="165389DEST_PATH_IMAGE004.GIF" wi="20" he="25" />和<img file="193388DEST_PATH_IMAGE005.GIF" wi="33" he="25" />,其中<img file="906129DEST_PATH_IMAGE004.GIF" wi="20" he="25" />是该数据对象的唯一标识,其取值为自然数,数值大小依据预处理顺序自1开始,依次递增1到<img file="95802DEST_PATH_IMAGE001.GIF" wi="18" he="18" />;<img file="995625DEST_PATH_IMAGE005.GIF" wi="33" he="25" />是该待聚类数据对象的权重,其值均设定为1;b.建立一个<img file="624053DEST_PATH_IMAGE006.GIF" wi="50" he="28" />行<img file="925721DEST_PATH_IMAGE007.GIF" wi="74" he="28" />列的数组<img file="286295DEST_PATH_IMAGE008.GIF" wi="38" he="20" />,其初始值全取值为0,用于保存聚类处理过程;c.数据对象分组将所有数据对象随机均分为<img file="204572DEST_PATH_IMAGE009.GIF" wi="22" he="18" />组,每组包含<img file="574374DEST_PATH_IMAGE010.GIF" wi="20" he="20" />=<img file="464970DEST_PATH_IMAGE011.GIF" wi="37" he="33" />个数据对象,若不能均分,则最后一组数据对象数目等于<img file="793183DEST_PATH_IMAGE012.GIF" wi="136" he="36" />,<img file="402019DEST_PATH_IMAGE013.GIF" wi="22" he="22" />为取整运算;d.计算每组内<img file="575511DEST_PATH_IMAGE010.GIF" wi="20" he="20" />个数据对象之间的相似度矩阵<img file="117351DEST_PATH_IMAGE014.GIF" wi="36" he="25" />,<img file="85307DEST_PATH_IMAGE015.GIF" wi="66" he="28" />,<img file="181439DEST_PATH_IMAGE016.GIF" wi="81" he="28" />,<img file="893043DEST_PATH_IMAGE017.GIF" wi="85" he="28" />;e.依据相似度矩阵<img file="289389DEST_PATH_IMAGE014.GIF" wi="36" he="25" />,选择组内当前相似度最大的两个数据对象<img file="428246DEST_PATH_IMAGE018.GIF" wi="154" he="28" />和数据对象<img file="11674DEST_PATH_IMAGE019.GIF" wi="176" he="28" />;若非唯一,则任选其一,合并生成新数据对象<img file="792549DEST_PATH_IMAGE020.GIF" wi="177" he="28" />,从本组中删除数据对象<img file="777822DEST_PATH_IMAGE018.GIF" wi="154" he="28" />和数据对象<img file="87581DEST_PATH_IMAGE019.GIF" wi="176" he="28" />;在数组<img file="689463DEST_PATH_IMAGE008.GIF" wi="38" he="20" />中保存合并生成记录;f.重复上述步骤d、步骤e,直至每组内数据对象数目减少一半,也即数据对象总数目减少一半;g.令<img file="742870DEST_PATH_IMAGE009.GIF" wi="22" he="18" />=<img file="582650DEST_PATH_IMAGE021.GIF" wi="41" he="36" />,<img file="63310DEST_PATH_IMAGE013.GIF" wi="22" he="22" />为取整运算,若满足<img file="886910DEST_PATH_IMAGE022.GIF" wi="48" he="20" />,则重复执行上述步骤c、步骤d、步骤e、步骤f,否则执行步骤h;h、将剩余所有数据对象作为一组,重复执行上述步骤d、步骤e,直至组内只剩1个数据对象;i.查询<img file="744007DEST_PATH_IMAGE008.GIF" wi="38" he="20" />中的查询合并记录,获取聚类处理结果<img file="438294DEST_PATH_IMAGE008.GIF" wi="38" he="20" />中最后一条记录表明了将所有聚类数据划分为2类的结果,包含2个子类数据对象的属性值的算数平均值和类内对象数目。
地址 071003 河北省保定市永华北大街619号