发明名称 一种基于动态社区挖掘进行专家检索的方法
摘要 本发明提供一种基于动态社区挖掘进行专家检索的方法,针对动态网络环境,同时利用链接结构和内容信息挖掘社区,将链接结构和内容表达为矩阵形式,综合历史社区划分结果,使用非负矩阵分解方法进行社区划分,并对社区划分代价进行迭代处理,使其结果局部最优化,以使社区结果在反映网络的链接特征的同时,还反映话题、兴趣等语义层面的特征,通过利用社区划分结果和社区话题,进行专家搜索,从而实现不同时刻的专家检索。本发明的方法不仅能反映社区成员、规模的变化,还能反映社区的话题分布及其随时间的变化,从而可以将社区挖掘结果直接专家搜索。
申请公布号 CN103488637B 申请公布日期 2016.12.14
申请号 CN201210191968.8 申请日期 2012.06.11
申请人 北京大学 发明人 闫秋玲;陈薇;王腾蛟;杨冬青
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 冯艺东
主权项 一种利用动态社区挖掘结果进行专家检索的方法,其步骤包括:(1)从目标网络获取数据集,按时间段划分成多个子数据集,每个子数据集包括一系列网络快照,对每个子数据集使用矩阵分解方法进行社区划分,所述矩阵分解方法的步骤包括:(a)对每一网络快照,根据网络节点间的转移概率建立节点相似矩阵W,根据网络节点和文本中的单词间的转移概率建立内容信息矩阵C;(b)根据节点相似矩阵W计算拓扑结构代价cost<sub>w</sub>;<maths num="0001"><math><![CDATA[<mrow><msub><mi>cost</mi><mi>w</mi></msub><mo>=</mo><mo>&part;</mo><mo>&CenterDot;</mo><mi>D</mi><mrow><mo>(</mo><mi>W</mi><mo>|</mo><mo>|</mo><msup><mi>XUX</mi><mi>T</mi></msup><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mo>&part;</mo><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>D</mi><mrow><mo>(</mo><mi>L</mi><mo>|</mo><mo>|</mo><msup><mi>XUX</mi><mi>T</mi></msup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000975844680000011.GIF" wi="1166" he="78" /></maths>(c)根据内容信息矩阵C计算内容信息代价cost<sub>c</sub>;cost<sub>C</sub>=D(C||XUV<sup>T</sup>)(d)根据cost和cost<sub>c</sub>计算社区划分代价cost<sub>total</sub>,并进行迭代优化;<maths num="0002"><math><![CDATA[<mrow><msub><mi>cost</mi><mrow><mi>t</mi><mi>o</mi><mi>t</mi><mi>a</mi><mi>l</mi></mrow></msub><mo>=</mo><mo>&part;</mo><mo>&CenterDot;</mo><mi>D</mi><mrow><mo>(</mo><mi>W</mi><mo>|</mo><mo>|</mo><msup><mi>XUX</mi><mi>T</mi></msup><mo>)</mo></mrow><mo>+</mo><mi>D</mi><mrow><mo>(</mo><mi>C</mi><mo>|</mo><mo>|</mo><msup><mi>XUV</mi><mi>T</mi></msup><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mo>&part;</mo><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>D</mi><mrow><mo>(</mo><mi>L</mi><mo>|</mo><mo>|</mo><msup><mi>XUX</mi><mi>T</mi></msup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000975844680000012.GIF" wi="1590" he="79" /></maths>(e)将社区划分代价近似的网络节点的集合作为一个社区;其中:L为t‑1时刻对W<sub>t‑1</sub>的分解结果,<img file="FDA0000975844680000013.GIF" wi="956" he="79" /><img file="FDA0000975844680000014.GIF" wi="750" he="72" /><img file="FDA0000975844680000015.GIF" wi="30" he="46" />为时间平滑参数,k为社区个数,m为网络节点个数,n为单词个数,t为时刻;D为表示计算两个矩阵的KL距离的函数;(2)通过匹配相邻时间的社区划分结果,按概率排序,得到专家排名,完成专家检索。
地址 100871 北京市海淀区颐和园路5号