发明名称 社区发现方法
摘要 本发明公开了一种社区发现方法。包括步骤:分析每个用户的信息,从中提取特征词,计算用户对应的特征向量;以某一个用户为基准,计算其余用户与该用户的相似度;将相似度高于门限值的用户标记为相似用户,将所有相似用户合并成为一个新的用户,被合并的相似用户记录为新用户的子用户,计算并简化新用户的特征向量;直到新用户达到设定的社区发现门限时完成新社区的发现。本发明的方法根据用户多属性相似度进行社区划分,不依赖用户的网络行为,在社会网络形成之初就能将兴趣相似、研究方向相似、行为方式相似的用户们组织在一个社区内,且发现的社区属性丰富,社区用户相似度高,能够为用户提供一个较为理想的信息交流和共享的平台。
申请公布号 CN102880644A 申请公布日期 2013.01.16
申请号 CN201210304097.6 申请日期 2012.08.24
申请人 电子科技大学 发明人 于秦;李定伟;马立香;毛玉明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都行之专利代理事务所(普通合伙) 51220 代理人 温利平
主权项 1.一种社区发现方法,具体包括如下步骤:步骤1:建立一个基准特征向量<img file="FDA00002052516800011.GIF" wi="44" he="58" />和特征词库;步骤2:提取社会网络中的用户特征词,所述社会网络可以图的形式来表示,令G=(V,E),其中,G表示一个社会网络,V表示用户v的集合,E表示用户之间边e的集合;社会网络图中的每个节点代表一个用户,每个用户的用户信息用来描述用户的属性,用户信息可以分割为多个标签,标签是用户信息的基本单位,将每个标签看成关键词,然后将各个关键词与已建立的特征词库里的特征词作比较,若该关键词存在于特征词库里,则该关键词就为特征词,反之,则不是特征词;步骤3:建立用户特征向量,用户v<sub>i</sub>的特征向量<img file="FDA00002052516800012.GIF" wi="35" he="62" />用数学符号<img file="FDA00002052516800013.GIF" wi="419" he="59" />来表示,其中,i为用户标号,<img file="FDA00002052516800014.GIF" wi="295" he="59" />为特征向量<img file="FDA00002052516800015.GIF" wi="35" he="61" />的分量;步骤4:计算用户相似度,根据步骤3得到用户特征向量,随机以某一个用户为基准,计算其余用户与该基准用户的相似程度,两个用户v<sub>i</sub>和v<sub>j</sub>相似度的采用如下公式得到:<maths num="0001"><![CDATA[<math><mrow><mi>sim</mi><mrow><mo>(</mo><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>w</mi><mn>1</mn></msub><mi>sim</mi><mrow><mo>(</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>w</mi><mn>2</mn></msub><mi>sim</mi><mrow><mo>(</mo><msub><mover><mi>B</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>,</mo><msub><mover><mi>B</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>w</mi><mn>3</mn></msub><mi>sim</mi><mrow><mo>(</mo><msub><mover><mi>C</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>C</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>i</mi><mo>&NotEqual;</mo><mi>j</mi></mrow></math>]]></maths>其中,<img file="FDA00002052516800017.GIF" wi="398" he="59" />和<img file="FDA00002052516800018.GIF" wi="432" he="64" />分别为用户v<sub>i</sub>和v<sub>j</sub>的特征向量,特征向量中的元素个数为N,各个分向量的相似度的权重w<sub>i</sub>,(i=1,2,…,N)满足<img file="FDA00002052516800019.GIF" wi="179" he="119" /><img file="FDA000020525168000110.GIF" wi="207" he="66" />是<maths num="0002"><![CDATA[<math><mrow><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>=</mo><mrow><mo>(</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>B</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>C</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>D</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>)</mo></mrow></mrow></math>]]></maths>和<maths num="0003"><![CDATA[<math><mrow><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>=</mo><mrow><mo>(</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>,</mo><msub><mover><mi>B</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>,</mo><msub><mover><mi>C</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>,</mo><msub><mover><mi>D</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>)</mo></mrow></mrow></math>]]></maths>的分向量<img file="FDA000020525168000113.GIF" wi="61" he="59" /><img file="FDA000020525168000114.GIF" wi="44" he="64" />的相似度,采用如下公式:<maths num="0004"><![CDATA[<math><mrow><mi>sim</mi><mrow><mo>(</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>&CenterDot;</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>+</mo><mi>&epsiv;</mi></mrow><mrow><mi>max</mi><mrow><mo>(</mo><msup><mrow><mo>|</mo><mo>|</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>,</mo><msup><mrow><mo>|</mo><mo>|</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>+</mo><mi>&epsiv;</mi></mrow></mfrac><mo>+</mo><mfrac><mrow><mi>min</mi><mrow><mo>(</mo><msup><mrow><mo>|</mo><mo>|</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>,</mo><msup><mrow><mo>|</mo><mo>|</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>-</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>&CenterDot;</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub></mrow><msup><mrow><mo>|</mo><mo>|</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>max</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup></mfrac><mo>,</mo><mi>i</mi><mo>&NotEqual;</mo><mi>j</mi></mrow></math>]]></maths>其中,<img file="FDA000020525168000116.GIF" wi="122" he="60" /><img file="FDA000020525168000117.GIF" wi="102" he="67" />分别为两个用户所对应的特征向量中分向量的模,<img file="FDA000020525168000118.GIF" wi="111" he="67" />表示两个分向量的内积,ε表示一个极小值,<img file="FDA000020525168000119.GIF" wi="80" he="60" />表示全为1的向量,即<img file="FDA000020525168000120.GIF" wi="368" he="60" />步骤5:将相似度高于相似门限值的用户记录为相似用户,把所有的相似用户合并成为一个新的用户,被合并的相似用户记录为新用户的子用户;步骤6:重复步骤4和步骤5,直到所有用户都被划分到新用户中,若新用户达到预先设定的社区发现的门限值时,发现新的社区,该新用户内的所有子用户组成一个社区。
地址 611731 四川省成都市高新区(西区)西源大道2006号