发明名称 一种应用于社区发现的可覆盖聚类方法
摘要 本发明公开了一种应用于社区发现的可覆盖聚类方法,在得到原始数据之后,将其转化为“用户—属性图”,它的基本单元是“用户—属性对”。在初始化“用户—属性图”之后,首先对其中的“用户—属性对”进行初步的分类,每一个类即为一个候选子图。其次,计算出每个候选子图的发生概率;同时计算出每个用户和各个候选子图之间的相关性。之后,建立概率统计模型,计算每个“用户—属性对”和候选子图之间的相关性。最后,根据数据环境中的这些候选子图的建立,对于数据中的各个“用户—属性图”对进行合理的分类,发现拥有多种属性的关键用户。本发明用于同时处理内容性数据和相关性数据,更好的适应真实网络环境中的社区发现需求。
申请公布号 CN102831219B 申请公布日期 2015.12.16
申请号 CN201210300460.7 申请日期 2012.08.22
申请人 浙江大学 发明人 何周舟;张仲非;飞利浦.余
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州宇信知识产权代理事务所(普通合伙) 33231 代理人 张宇娟
主权项 一种应用于社区发现的可覆盖聚类方法,其特征在于,包括以下步骤:步骤1,给出所需要的数据输入,具体包括以下子步骤,步骤11,设立数据环境中的用户集合为U={u<sub>1</sub>,u<sub>2</sub>,u<sub>3</sub>,……u<sub>N</sub>},一共有N个;设立数据环境中的属性集合为A={a<sub>1</sub>,a<sub>2</sub>,a<sub>3</sub>,……a<sub>M</sub>},一共有M个;用u<sub>i</sub>→a<sub>j</sub>代表第i个用户拥有第j个属性;步骤12,用属性矩阵E代表用户和属性之间的关系,即为内容性数据,在数据环境中,定义E∈R<sup>N×M</sup>,e<sub>ij</sub>∈{0,1},1≤i≤N,1≤j≤M,当e<sub>ij</sub>=1时,表示第i个用户拥有第j个属性,e<sub>ij</sub>=0时,表示第i个用户不拥有第j个属性;步骤13,用邻接矩阵W来代表用户和用户之间的关系,即为相关性数据,在数据环境中,定义W∈R<sup>N×N</sup>,W<sub>ij</sub>≥0,1≤i≤N,1≤j≤N,w<sub>ij</sub>的大小代表了第i个用户和第j个用户之间的关系紧密度;步骤2,建立候选子图,分为以下子步骤,步骤21,建立“用户—属性图”,“用户—属性图”是建立同时具有内容性数据和相关性数据基础上的数据结构,按照所述步骤1的定义可以表示为G=(U,A,W,E),其中U是数据环境中用户的集合,A是数据环境中属性的集合,W代表了用户和用户之间的相关性的度量,而E代表了用户和属性之间的关联性质,步骤22,在给出所述“用户—属性图”的基础上,一系列候选子图被定义为S<sub>l</sub>=(U<sub>l</sub>,A<sub>l</sub>,W<sub>l</sub>,E<sub>l</sub>),其中l∈{1,2,…,L},每一个候选子图实际上为“用户—属性图”的部分结构,并且所有的候选子图的用户的总和即是原有数据环境中的所有用户总和;各个候选子图不会占有同一个用户,步骤3,评估候选子图,建立起测量用户或属性和这些候选子图之间相关性的准则,步骤31,度量属性和候选子图之间的相关性<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>a</mi><mi>i</mi></msub><mo>|</mo><msub><mi>S</mi><mi>l</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msub><mi>H</mi><mi>i</mi></msub></mfrac><mo>&times;</mo><mfenced open='{' close=''><mtable><mtr><mtd><mi>exp</mi><mrow><mo>(</mo><msub><mi>&lambda;</mi><mi>a</mi></msub><mrow><mo>(</mo><mi>r</mi><mrow><mo>(</mo><msub><mi>a</mi><mi>i</mi></msub><mo>|</mo><msub><mi>S</mi><mi>l</mi></msub><mo>)</mo></mrow><mo>-</mo><msub><mi>t</mi><mi>l</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mtd><mtd><mi>for</mi></mtd><mtd><mi>r</mi><mrow><mo>(</mo><msub><mi>a</mi><mi>i</mi></msub><mo>|</mo><msub><mi>S</mi><mi>l</mi></msub><mo>)</mo></mrow><mo>&GreaterEqual;</mo><msub><mi>t</mi><mi>l</mi></msub></mtd></mtr><mtr><mtd><msub><mi>P</mi><mi>s</mi></msub></mtd><mtd><mi>for</mi></mtd><mtd><mi>other</mi></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000735941060000021.GIF" wi="1282" he="181" /></maths>   公式1在上式中r(a<sub>i</sub>|S<sub>l</sub>)是一种度量属性和候选子图之间相关性的核心技术,其具体定义为<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>r</mi><mrow><mo>(</mo><msub><mi>a</mi><mi>i</mi></msub><mo>|</mo><msub><mi>S</mi><mi>l</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msub><mrow><mn>2</mn><mi>m</mi></mrow><mi>l</mi></msub></mfrac><munder><munder><mi>&Sigma;</mi><mrow><msub><mi>u</mi><mi>t</mi></msub><mo>,</mo><msub><mi>u</mi><mi>h</mi></msub><mo>&Element;</mo><msub><mi>S</mi><mi>l</mi></msub></mrow></munder><mrow><msub><mi>u</mi><mi>t</mi></msub><mo>,</mo><msub><mi>u</mi><mi>g</mi></msub><mo>&RightArrow;</mo><msub><mi>a</mi><mi>i</mi></msub></mrow></munder><mrow><mo>(</mo><msub><mi>w</mi><mi>tg</mi></msub><mo>-</mo><mfrac><mrow><msub><mi>d</mi><mi>t</mi></msub><msub><mi>d</mi><mi>g</mi></msub></mrow><msub><mrow><mn>2</mn><mi>m</mi></mrow><mi>l</mi></msub></mfrac><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000735941060000022.GIF" wi="847" he="190" /></maths>在上式中,m<sub>l</sub>是W<sub>l</sub>内所有元素的权重之和;d<sub>t</sub>和d<sub>g</sub>分别代表用户u<sub>t</sub>和用户u<sub>g</sub>的度数,为了更清晰明了的表达上式的含义,将其转化为下面的描述,<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>r</mi><mrow><mo>(</mo><msub><mi>a</mi><mi>i</mi></msub><mo>|</mo><msub><mi>S</mi><mi>l</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>Cut</mi><mrow><mo>(</mo><msubsup><mi>U</mi><mi>l</mi><msub><mi>a</mi><mi>i</mi></msub></msubsup><mo>,</mo><msubsup><mi>U</mi><mi>l</mi><msub><mi>a</mi><mi>i</mi></msub></msubsup><mo>)</mo></mrow></mrow><msub><mrow><mn>2</mn><mi>m</mi></mrow><mi>l</mi></msub></mfrac><mo>-</mo><msup><mrow><mo>(</mo><mfrac><mrow><mi>Cut</mi><mrow><mo>(</mo><msubsup><mi>U</mi><mi>l</mi><msub><mi>a</mi><mi>i</mi></msub></msubsup><mo>,</mo><msub><mi>U</mi><mi>l</mi></msub><mo>)</mo></mrow></mrow><msub><mrow><mn>2</mn><mi>m</mi></mrow><mi>l</mi></msub></mfrac><mo>)</mo></mrow><mn>2</mn></msup></mrow>]]></math><img file="FDA0000735941060000023.GIF" wi="946" he="212" /></maths>上式中,U<sub>l</sub><sup>ai</sup>代表在第l个候选子图中,所有拥有属性a<sub>i</sub>的用户的集合;Cut(A,B)代表集合A和集合B之间所有连接关系权重的总和,公式1的其他参数的定义如下所示,t<sub>l</sub>是一个门限参数,它是由所有属性与候选子图做相关性测量后,再取均值所得到的;Hi是一个归一化参数;λ<sub>a</sub>是一个控制参数,而p<sub>a</sub>是一较小的正常数,如果属性和该候选子图的相关性较高,那么该属性从属于该子图的概率也就很高,并和相关性成指数关系,反之该属性从属的概率就很小,并取一个较小的正常数p<sub>a</sub>;步骤32,度量用户和候选子图的相关性采用一种马尔科夫随机场的变形来测量用户和候选子图之间的相关性,具体的测量准则如下所示:<img file="FDA0000735941060000031.GIF" wi="1141" he="242" />公式2在上式中Hi是一个归一化参数,N<sub>(i)</sub>是用户u<sub>i</sub>所有邻居用户的集合;λ<sub>n</sub>是一个控制参数,而p<sub>n</sub>是一个正常数;对于特定用户,他的邻居用户和某个候选子图的相关性较高,那么该用户从属于该子图的概率也就很高,并和相关性成对数关系,反之该属性从属的概率就很小,并取一个较小的正常数p<sub>n</sub>;步骤33,度量“用户—属性对”和候选子图的相关性在分别定义好属性和用户与候选子图的相关性之后,建立起度量“用户—属性对”和候选子图之间的相关性,具体如下所示:p(u<sub>i</sub>→a<sub>j</sub>|S<sub>l</sub>)∝p(u<sub>i</sub>|S<sub>l</sub>)p(a<sub>j</sub>|S<sub>l</sub>)   公式3步骤4,可覆盖社区发现步骤41,通过建立概率统计模型来求解具有可覆盖性的社区,先假设用户和属性是已知的变量,而候选子图可表示为隐藏的变量s={s<sub>l</sub>}<sup>L</sup> <sub>l=1</sub>,L表示候选子图的数量,因此,每一个“用户—属性对”可以在概率上从属于多个候选子图,于是可以用下面的公式来描述“用户—属性对”,<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>u</mi><mi>i</mi></msub><mo>&RightArrow;</mo><msub><mi>a</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msub><mi>&pi;</mi><mi>l</mi></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><mo>|</mo><msub><mi>s</mi><mi>l</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000735941060000032.GIF" wi="851" he="146" /></maths>   公式4步骤42,采用EM算法来最大化似然函数p(E|π),于是基于完整数据集{E,S},定义似然函数如下:<maths num="0005" id="cmaths0005"><math><![CDATA[<mfenced open='' close=''><mtable><mtr><mtd><mi>p</mi><mrow><mo>(</mo><mi>E</mi><mo>,</mo><mi>S</mi><mo>|</mo><mi>&pi;</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Pi;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mi>&Pi;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><munderover><mi>&Pi;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><mi>p</mi><msup><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><mo>,</mo><msub><mi>s</mi><mi>l</mi></msub><mo>)</mo></mrow><msub><mi>w</mi><mi>ij</mi></msub></msup></mtd></mtr><mtr><mtd><mo>=</mo><munderover><mi>&Pi;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mi>&Pi;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><munderover><mi>&Pi;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msup><mrow><mo>(</mo><msup><mi>&pi;</mi><msub><mi>s</mi><mi>ijl</mi></msub></msup><mi>p</mi><msup><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><mo>|</mo><msub><mi>s</mi><mi>l</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow><msub><mi>s</mi><mi>ijl</mi></msub></msup><mo>)</mo></mrow><msub><mi>w</mi><mi>ij</mi></msub></msup></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000735941060000033.GIF" wi="1102" he="355" /></maths>   公式5为了方便推导公式,将上式转移成log形式,<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mi>ln</mi><mi>p</mi><mrow><mo>(</mo><mi>E</mi><mo>,</mo><mi>S</mi><mo>|</mo><mi>&pi;</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msub><mi>w</mi><mi>ij</mi></msub><msub><mi>s</mi><mi>ijl</mi></msub><mo>{</mo><msub><mrow><mi>ln</mi><mi>&pi;</mi></mrow><mi>l</mi></msub><mo>+</mo><mi>ln</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><mo>|</mo><msub><mi>s</mi><mi>l</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>}</mo></mrow>]]></math><img file="FDA0000735941060000041.GIF" wi="1152" he="155" /></maths>   公式6(3)给出了基于EM算法的公式推导E步:对于候选子图的后验概率推导,可以由下式表达:<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><mi>ln</mi><mi>p</mi><mrow><mo>(</mo><mi>W</mi><mo>,</mo><mi>S</mi><mo>|</mo><mi>&pi;</mi><mo>)</mo></mrow><mo>&Proportional;</mo><munderover><mi>&Pi;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mi>&Pi;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><munderover><mi>&Pi;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msup><mrow><mo>[</mo><msub><mi>&pi;</mi><mi>l</mi></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><mo>|</mo><msub><mi>s</mi><mi>l</mi></msub><mo>)</mo></mrow><mo>]</mo></mrow><msub><mi>s</mi><mi>ijl</mi></msub></msup></mrow>]]></math><img file="FDA0000735941060000042.GIF" wi="918" he="167" /></maths>   公式7之后,求取s<sub>ijl</sub>的期望值,具体的推导如下:<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><mi>E</mi><mo>[</mo><msub><mi>s</mi><mi>ijl</mi></msub><mo>]</mo><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mfrac><mrow><msub><mi>&Sigma;</mi><msub><mi>s</mi><mi>ijl</mi></msub></msub><msub><mi>s</mi><mi>ijl</mi></msub><msup><mrow><mo>[</mo><msub><mi>&pi;</mi><mi>l</mi></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><mo>|</mo><msub><mi>s</mi><mi>l</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>]</mo></mrow><msub><mi>s</mi><mi>ijl</mi></msub></msup></mrow><mrow><msub><mi>&Sigma;</mi><msub><mi>s</mi><mi>ijl</mi></msub></msub><msup><mrow><mo>[</mo><msub><mi>&pi;</mi><mi>l</mi></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><mo>|</mo><msub><mi>s</mi><mi>l</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>]</mo></mrow><msub><mi>s</mi><mi>ijl</mi></msub></msup></mrow></mfrac></mtd></mtr><mtr><mtd><mo>=</mo><mfrac><mrow><msub><mi>&pi;</mi><mi>l</mi></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><mo>|</mo><msub><mi>s</mi><mi>l</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></msubsup><msub><mi>&pi;</mi><mi>l</mi></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><msub><mrow><mo>|</mo><mi>S</mi></mrow><mi>sl</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac><mo>=</mo><mi>&gamma;</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>ijl</mi></msub><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000735941060000043.GIF" wi="863" he="428" /></maths>   公式8在上式中,p(e<sub>ij</sub>|s<sub>l</sub>=1)可以由公式3计算得出,而γ(s<sub>ijl</sub>)则是代表一种可信度,M步:在M步中,将要推导模型的相关参数,首先来看模型参数π<sup>new</sup>,<maths num="0009" id="cmaths0009"><math><![CDATA[<mrow><msup><mi>&pi;</mi><mi>new</mi></msup><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mi>&pi;</mi></munder><mi>Q</mi><mrow><mo>(</mo><mi>&pi;</mi><mo>,</mo><msup><mi>&pi;</mi><mi>old</mi></msup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000735941060000044.GIF" wi="888" he="172" /></maths><maths num="0010" id="cmaths0010"><math><![CDATA[<mfenced open='' close=''><mtable><mtr><mtd><mi>Q</mi><mrow><mo>(</mo><mi>&pi;</mi><mo>,</mo><msup><mi>&pi;</mi><mi>old</mi></msup><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mo>=</mo><munder><mi>&Sigma;</mi><mi>s</mi></munder><mi>p</mi><mrow><mo>(</mo><mi>S</mi><mo>|</mo><mi>E</mi><mo>,</mo><msup><mi>&pi;</mi><mi>old</mi></msup><mo>)</mo></mrow><mi>ln</mi><mi>p</mi><mrow><mo>(</mo><mi>E</mi><mo>,</mo><mi>S</mi><mo>|</mo><mi>&pi;</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mo>=</mo><msub><mi>E</mi><mi>s</mi></msub><mo>[</mo><mi>ln</mi><mi>p</mi><mrow><mo>(</mo><mi>E</mi><mo>,</mo><mi>S</mi><mo>|</mo><mi>&pi;</mi><mo>)</mo></mrow><mo>]</mo></mtd></mtr><mtr><mtd><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msub><mi>w</mi><mi>ij</mi></msub><mi>&gamma;</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>ijll</mi></msub><mo>)</mo></mrow><mo>{</mo><mi>ln</mi><msub><mi>&pi;</mi><mi>l</mi></msub><mo>+</mo><mi>ln</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>e</mi><mi>ij</mi></msub><mo>|</mo><msub><mi>s</mi><mi>l</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>}</mo></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000735941060000045.GIF" wi="1007" he="519" /></maths>   公式9上式是模型参数的求解公式,其中π<sup>new</sup>表示的是下一次迭代中的参数π,而π<sup>old</sup>表示的是当前迭代中的参数π,为了求解出模型参数,采用了拉格朗日乘子法,具体如下:<maths num="0011" id="cmaths0011"><math><![CDATA[<mfenced open='' close=''><mtable><mtr><mtd><mfrac><mo>&PartialD;</mo><msub><mrow><mo>&PartialD;</mo><mi>&pi;</mi></mrow><mi>l</mi></msub></mfrac><mo>{</mo><mi>Q</mi><mrow><mo>(</mo><mi>&pi;</mi><mo>,</mo><msup><mi>&pi;</mi><mi>old</mi></msup><mo>)</mo></mrow><mo>-</mo><mi>&lambda;</mi><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msub><mi>&pi;</mi><mi>l</mi></msub><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>}</mo><mo>=</mo><mn>0</mn></mtd></mtr><mtr><mtd><mo>&DoubleRightArrow;</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><mfrac><mrow><msub><mi>w</mi><mi>ij</mi></msub><mi>&gamma;</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>ijl</mi></msub><mo>)</mo></mrow></mrow><msub><mi>&pi;</mi><mi>l</mi></msub></mfrac><mo>=</mo><mi>&lambda;</mi></mtd></mtr><mtr><mtd><mo>&DoubleRightArrow;</mo><msub><mi>&pi;</mi><mi>l</mi></msub><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></msubsup><msub><mi>w</mi><mi>ij</mi></msub><mi>&gamma;</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>ijl</mi></msub><mo>)</mo></mrow></mrow><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></msubsup><msub><mi>w</mi><mi>ij</mi></msub></mrow></mfrac></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000735941060000051.GIF" wi="802" he="575" /></maths>   公式10采用p(S|U)去重新确立候选子图,即根据用户相对于候选子图的归属,并以此来重新建立候选子图,<maths num="0012" id="cmaths0012"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>l</mi></msub><mo>=</mo><mn>1</mn><mo>|</mo><msub><mi>u</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>&pi;</mi><mi>l</mi></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>u</mi><mi>i</mi></msub><mo>|</mo><msub><mi>s</mi><mi>l</mi></msub><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></msubsup><msub><mi>&pi;</mi><mi>t</mi></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>u</mi><mi>i</mi></msub><mo>|</mo><msub><mi>s</mi><mi>t</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000735941060000052.GIF" wi="739" he="180" /></maths>   公式11具体而言,本发明中使用向量{p(s<sub>l</sub>=1|u<sub>i</sub>)}<sup>L</sup><sub>l=1</sub>来表征用户u<sub>i</sub>,然后使用这种信息对所有的用户做聚类处理,并得到新的一系列候选子图,在新的候选子图的基础上,EM算法进行下一次的迭代运算,最终就可以得到稳定而可信的L个候选子图,最后,对“用户—属性对”的聚类分析,会有一部分拥有多个“用户—属性对”的用户从属于多个不同的类,即具有可覆盖性的社区发现的完成。
地址 310027 浙江省杭州市西湖区浙大路38号