社区发现方法,申请号CN201210304097.6-传众专利搜索

发明名称	社区发现方法
摘要	本发明公开了一种社区发现方法。包括步骤：分析每个用户的信息，从中提取特征词，计算用户对应的特征向量；以某一个用户为基准，计算其余用户与该用户的相似度；将相似度高于门限值的用户标记为相似用户，将所有相似用户合并成为一个新的用户，被合并的相似用户记录为新用户的子用户，计算并简化新用户的特征向量；直到新用户达到设定的社区发现门限时完成新社区的发现。本发明的方法根据用户多属性相似度进行社区划分，不依赖用户的网络行为，在社会网络形成之初就能将兴趣相似、研究方向相似、行为方式相似的用户们组织在一个社区内，且发现的社区属性丰富，社区用户相似度高，能够为用户提供一个较为理想的信息交流和共享的平台。
申请公布号	CN102880644A	申请公布日期	2013.01.16
申请号	CN201210304097.6	申请日期	2012.08.24
申请人	电子科技大学	发明人	于秦;李定伟;马立香;毛玉明
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	成都行之专利代理事务所(普通合伙) 51220	代理人	温利平
主权项	1.一种社区发现方法，具体包括如下步骤：步骤1：建立一个基准特征向量<img file="FDA00002052516800011.GIF" wi="44" he="58" />和特征词库；步骤2：提取社会网络中的用户特征词，所述社会网络可以图的形式来表示，令G=(V,E)，其中，G表示一个社会网络，V表示用户v的集合，E表示用户之间边e的集合；社会网络图中的每个节点代表一个用户，每个用户的用户信息用来描述用户的属性，用户信息可以分割为多个标签，标签是用户信息的基本单位，将每个标签看成关键词，然后将各个关键词与已建立的特征词库里的特征词作比较，若该关键词存在于特征词库里，则该关键词就为特征词，反之，则不是特征词；步骤3：建立用户特征向量，用户v<sub>i</sub>的特征向量<img file="FDA00002052516800012.GIF" wi="35" he="62" />用数学符号<img file="FDA00002052516800013.GIF" wi="419" he="59" />来表示，其中，i为用户标号，<img file="FDA00002052516800014.GIF" wi="295" he="59" />为特征向量<img file="FDA00002052516800015.GIF" wi="35" he="61" />的分量；步骤4：计算用户相似度，根据步骤3得到用户特征向量，随机以某一个用户为基准，计算其余用户与该基准用户的相似程度，两个用户v<sub>i</sub>和v<sub>j</sub>相似度的采用如下公式得到：<maths num="0001"><![CDATA[<math><mrow><mi>sim</mi><mrow><mo>(</mo><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>w</mi><mn>1</mn></msub><mi>sim</mi><mrow><mo>(</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>w</mi><mn>2</mn></msub><mi>sim</mi><mrow><mo>(</mo><msub><mover><mi>B</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>,</mo><msub><mover><mi>B</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>w</mi><mn>3</mn></msub><mi>sim</mi><mrow><mo>(</mo><msub><mover><mi>C</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>C</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>i</mi><mo>&NotEqual;</mo><mi>j</mi></mrow></math>]]></maths>其中，<img file="FDA00002052516800017.GIF" wi="398" he="59" />和<img file="FDA00002052516800018.GIF" wi="432" he="64" />分别为用户v<sub>i</sub>和v<sub>j</sub>的特征向量，特征向量中的元素个数为N，各个分向量的相似度的权重w<sub>i</sub>,(i＝1,2,…,N)满足<img file="FDA00002052516800019.GIF" wi="179" he="119" /><img file="FDA000020525168000110.GIF" wi="207" he="66" />是<maths num="0002"><![CDATA[<math><mrow><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>=</mo><mrow><mo>(</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>B</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>C</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>D</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>)</mo></mrow></mrow></math>]]></maths>和<maths num="0003"><![CDATA[<math><mrow><msub><mover><mi>L</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>=</mo><mrow><mo>(</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>,</mo><msub><mover><mi>B</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>,</mo><msub><mover><mi>C</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>,</mo><msub><mover><mi>D</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>)</mo></mrow></mrow></math>]]></maths>的分向量<img file="FDA000020525168000113.GIF" wi="61" he="59" /><img file="FDA000020525168000114.GIF" wi="44" he="64" />的相似度，采用如下公式：<maths num="0004"><![CDATA[<math><mrow><mi>sim</mi><mrow><mo>(</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>·</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>+</mo><mi>ϵ</mi></mrow><mrow><mi>max</mi><mrow><mo>(</mo><msup><mrow><mo>\|</mo><mo>\|</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msup><mo>,</mo><msup><mrow><mo>\|</mo><mo>\|</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>+</mo><mi>ϵ</mi></mrow></mfrac><mo>+</mo><mfrac><mrow><mi>min</mi><mrow><mo>(</mo><msup><mrow><mo>\|</mo><mo>\|</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msup><mo>,</mo><msup><mrow><mo>\|</mo><mo>\|</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>-</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>·</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>j</mi></msub></mrow><msup><mrow><mo>\|</mo><mo>\|</mo><msub><mover><mi>A</mi><mo>&RightArrow;</mo></mover><mi>max</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mn>2</mn></msup></mfrac><mo>,</mo><mi>i</mi><mo>&NotEqual;</mo><mi>j</mi></mrow></math>]]></maths>其中，<img file="FDA000020525168000116.GIF" wi="122" he="60" /><img file="FDA000020525168000117.GIF" wi="102" he="67" />分别为两个用户所对应的特征向量中分向量的模，<img file="FDA000020525168000118.GIF" wi="111" he="67" />表示两个分向量的内积，ε表示一个极小值，<img file="FDA000020525168000119.GIF" wi="80" he="60" />表示全为1的向量，即<img file="FDA000020525168000120.GIF" wi="368" he="60" />步骤5：将相似度高于相似门限值的用户记录为相似用户，把所有的相似用户合并成为一个新的用户，被合并的相似用户记录为新用户的子用户；步骤6：重复步骤4和步骤5，直到所有用户都被划分到新用户中，若新用户达到预先设定的社区发现的门限值时，发现新的社区，该新用户内的所有子用户组成一个社区。
地址	611731 四川省成都市高新区（西区）西源大道2006号