一种基于动态社区挖掘进行专家检索的方法,申请号CN201210191968.8-传众专利搜索

发明名称	一种基于动态社区挖掘进行专家检索的方法
摘要	本发明提供一种基于动态社区挖掘进行专家检索的方法，针对动态网络环境，同时利用链接结构和内容信息挖掘社区，将链接结构和内容表达为矩阵形式，综合历史社区划分结果，使用非负矩阵分解方法进行社区划分,并对社区划分代价进行迭代处理，使其结果局部最优化，以使社区结果在反映网络的链接特征的同时，还反映话题、兴趣等语义层面的特征，通过利用社区划分结果和社区话题，进行专家搜索，从而实现不同时刻的专家检索。本发明的方法不仅能反映社区成员、规模的变化，还能反映社区的话题分布及其随时间的变化，从而可以将社区挖掘结果直接专家搜索。
申请公布号	CN103488637B	申请公布日期	2016.12.14
申请号	CN201210191968.8	申请日期	2012.06.11
申请人	北京大学	发明人	闫秋玲;陈薇;王腾蛟;杨冬青
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京君尚知识产权代理事务所(普通合伙) 11200	代理人	冯艺东
主权项	一种利用动态社区挖掘结果进行专家检索的方法，其步骤包括：(1)从目标网络获取数据集，按时间段划分成多个子数据集，每个子数据集包括一系列网络快照，对每个子数据集使用矩阵分解方法进行社区划分，所述矩阵分解方法的步骤包括：(a)对每一网络快照，根据网络节点间的转移概率建立节点相似矩阵W，根据网络节点和文本中的单词间的转移概率建立内容信息矩阵C；(b)根据节点相似矩阵W计算拓扑结构代价cost<sub>w</sub>；<maths num="0001"><math><![CDATA[<mrow><msub><mi>cost</mi><mi>w</mi></msub><mo>=</mo><mo>∂</mo><mo>·</mo><mi>D</mi><mrow><mo>(</mo><mi>W</mi><mo>\|</mo><mo>\|</mo><msup><mi>XUX</mi><mi>T</mi></msup><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mo>∂</mo><mo>)</mo></mrow><mo>·</mo><mi>D</mi><mrow><mo>(</mo><mi>L</mi><mo>\|</mo><mo>\|</mo><msup><mi>XUX</mi><mi>T</mi></msup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000975844680000011.GIF" wi="1166" he="78" /></maths>(c)根据内容信息矩阵C计算内容信息代价cost<sub>c</sub>；cost<sub>C</sub>＝D(C\|\|XUV<sup>T</sup>)(d)根据cost和cost<sub>c</sub>计算社区划分代价cost<sub>total</sub>，并进行迭代优化；<maths num="0002"><math><![CDATA[<mrow><msub><mi>cost</mi><mrow><mi>t</mi><mi>o</mi><mi>t</mi><mi>a</mi><mi>l</mi></mrow></msub><mo>=</mo><mo>∂</mo><mo>·</mo><mi>D</mi><mrow><mo>(</mo><mi>W</mi><mo>\|</mo><mo>\|</mo><msup><mi>XUX</mi><mi>T</mi></msup><mo>)</mo></mrow><mo>+</mo><mi>D</mi><mrow><mo>(</mo><mi>C</mi><mo>\|</mo><mo>\|</mo><msup><mi>XUV</mi><mi>T</mi></msup><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mo>∂</mo><mo>)</mo></mrow><mo>·</mo><mi>D</mi><mrow><mo>(</mo><mi>L</mi><mo>\|</mo><mo>\|</mo><msup><mi>XUX</mi><mi>T</mi></msup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000975844680000012.GIF" wi="1590" he="79" /></maths>(e)将社区划分代价近似的网络节点的集合作为一个社区；其中：L为t‑1时刻对W<sub>t‑1</sub>的分解结果，<img file="FDA0000975844680000013.GIF" wi="956" he="79" /><img file="FDA0000975844680000014.GIF" wi="750" he="72" /><img file="FDA0000975844680000015.GIF" wi="30" he="46" />为时间平滑参数，k为社区个数，m为网络节点个数，n为单词个数，t为时刻；D为表示计算两个矩阵的KL距离的函数；(2)通过匹配相邻时间的社区划分结果，按概率排序，得到专家排名，完成专家检索。
地址	100871 北京市海淀区颐和园路5号