发明名称 一种并行社区发现方法和装置
摘要 本发明公开了一种并行社区发现方法和装置,涉及数据挖掘领域。本发明公开的方法包括:读入原始社交网络数据,将其转换成邻接矩阵的形式并存储在HDFS文件系统上;在配置有Hadoop环境的计算集群上计算存储在HDFS上的图的邻接矩阵的度矩阵D和Laplacian矩阵;对Laplacian矩阵进行特征值和特征向量的并行Lanczos数值求解,得到矩阵前K个最大特征值对应的特征向量,并构造出特征向量矩阵进行归一化,得到规范化的特征向量矩阵并提取特征,将每行看作一个点,采用聚类方法将其聚类成K类;根据点的对应关系,将原来的社区中的个体等价地划为K类,完成社区的分类。本发明还公开了一种社区发现装置。本申请技术方案对于大规模数据具有良好的适应性。
申请公布号 CN104077279A 申请公布日期 2014.10.01
申请号 CN201310096315.6 申请日期 2013.03.25
申请人 中兴通讯股份有限公司 发明人 陆平;罗圣美;胡磊;王桥;林云龙;邹俊洋;钟齐炜;陆建
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京安信方达知识产权代理有限公司 11262 代理人 田红娟;龙洪
主权项 一种社区发现方法,其特征在于,该方法包括:读入原始社交网络数据,将其转换成邻接矩阵的形式并存储在HDFS文件系统上;在配置有Hadoop环境的计算集群上计算存储在HDFS上的图的邻接矩阵的度矩阵D和Laplacian矩阵L<sub>sym</sub>=I‑D<sup>‑1/2</sup>SD<sup>‑1/2</sup>;对所述Laplacian矩阵采用Haoop框架进行特征值和特征向量的并行Lanczos数值求解,得到矩阵前K个最大特征值I=λ<sub>1</sub>≥λ<sub>2</sub>≥…≥λ<sub>K</sub>,其对应的特征向量表示成V<sup>1</sup>,V<sup>2</sup>,…,V<sup>K</sup>;将所述特征向量V<sup>1</sup>,V<sup>2</sup>,…,V<sup>K</sup>排成一行,构造出特征向量矩阵<img file="FDA00002959426500011.GIF" wi="506" he="86" />并对其进行归一化,得到规范化的特征向量矩阵<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>Y</mi><mo>=</mo><msub><mi>U</mi><mi>ij</mi></msub><mo>/</mo><msup><mrow><mo>(</mo><msub><mi>&Sigma;</mi><mi>i</mi></msub><msubsup><mi>U</mi><mi>ij</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup><mo>;</mo></mrow>]]></math><img file="FDA00002959426500012.GIF" wi="482" he="82" /></maths>对规范化的特征向量矩阵Y进行特征提取,将每行看作一个点,代表原来的抽象个体的欧式空间映射,采用简单基于距离的聚类方法将其聚类成K类;根据点的对应关系,将原来的社区中的个体等价地划为K类,完成社区的分类。
地址 518057 广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦法务部