发明名称 一种博客信息传播中识别关键博客集的方法
摘要 本发明公开了一种可以快速、准确在博客信息传播中识别关键博客集的方法,其步骤是:1)以博客为单位收集和确定博客之间的关注关系和链接关系;2)以博客为节点构建博客网络图,图的边为博客间的关联;3)根据信息传播模型确定博客间关联(有向边)的权重;4)基于博客网络图计算每个博客对其他博客传播影响力的期望值;5)识别博客网络图中信息传播影响力最大的关键节点集合。本发明结合信息传播模型,应用博客之间的关联关系,通过计算信息传播期望,快速识别博客信息传播中关键的博客集合,以方便博客信息的监督。
申请公布号 CN102262681B 申请公布日期 2015.12.02
申请号 CN201110239145.3 申请日期 2011.08.19
申请人 南京大学 发明人 顾庆;张尧;汤九斌;陈道蓄
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 江苏圣典律师事务所 32237 代理人 贺翔
主权项 一种博客信息传播中识别关键博客集的方法,其特征在于包含以下步骤:1) 以博客为单位收集和确定博主间的关联;关联包括关注关系以及博客中文章间的链接关系;收集和确定博客间的关联过程为:首先从博客网站获取博客数据,为每一个博客,即博主,赋予唯一标识<img file="dest_path_image002.GIF" wi="17" he="17" />;然后获取博主的好友列表或关注列表;好友列表确定博主间双向的好友关系;关注列表确定博主间单向的关注关系;好友关系可以表示为两个互为反向的关注关系;如果博主<img file="724560dest_path_image002.GIF" wi="17" he="17" />关注博主<img file="dest_path_image004.GIF" wi="18" he="19" />,则两者间的关注关系标记为<img file="dest_path_image006.GIF" wi="90" he="19" />;接下来获取博客<img file="454750dest_path_image002.GIF" wi="17" he="17" />在<img file="dest_path_image008.GIF" wi="7" he="16" />日内粘贴的文章,对博客<img file="109853dest_path_image002.GIF" wi="17" he="17" />中的每一篇文章<img file="dest_path_image010.GIF" wi="21" he="17" />,如果<img file="567379dest_path_image010.GIF" wi="21" he="17" />链接了博客<img file="194801dest_path_image004.GIF" wi="18" he="19" />中的文章<img file="dest_path_image012.GIF" wi="22" he="19" />,则认为博客<img file="79580dest_path_image002.GIF" wi="17" he="17" />与博客<img file="159663dest_path_image004.GIF" wi="18" he="19" />之间存在链接关系,标记为<img file="dest_path_image014.GIF" wi="99" he="19" />,其中<img file="dest_path_image016.GIF" wi="20" he="18" />表示文章<img file="233929dest_path_image010.GIF" wi="21" he="17" />粘贴日期与当前日期的差值;如果博客<img file="230704dest_path_image002.GIF" wi="17" he="17" />多次引用博客<img file="224068dest_path_image004.GIF" wi="18" he="19" />中文章,则<img file="525867dest_path_image016.GIF" wi="20" he="18" />为其中的最小值;2) 以博客为节点构建博客网络图,图的边为博客间的关联,对应博客间的链接关系或者博主之间的关注关系;3) 根据信息传播模型确定博客网络图中博客间的关联的权重,即确定博客网络图中有向边的权重,分三种情况:对边集<i>E</i>中的每一条有向边<img file="dest_path_image018.GIF" wi="17" he="15" />,分析<img file="962464dest_path_image018.GIF" wi="17" he="15" />对应的关联关系;其中:情况1,关联关系为链接关系:<img file="dest_path_image020.GIF" wi="99" he="19" />,此时采用独立级联模型为边赋权重,即<img file="dest_path_image022.GIF" wi="92" he="22" />,其中链接关系权重的初始值<img file="dest_path_image024.GIF" wi="10" he="18" />设为0.1,指数参数<img file="dest_path_image026.GIF" wi="11" he="13" />设为0.5;情况2,关联关系为关注关系:<img file="dest_path_image028.GIF" wi="90" he="19" />,此时采用加权级联模型为边赋权重,即<img file="dest_path_image030.GIF" wi="70" he="40" />,其中集合<img file="dest_path_image032.GIF" wi="16" he="19" />是博主<img file="564478dest_path_image004.GIF" wi="18" he="19" />的关注集,<img file="dest_path_image034.GIF" wi="23" he="20" />指集合的规模;关注关系权重的最大值<img file="dest_path_image036.GIF" wi="9" he="18" />设为0.6;情况3,关联关系同时为链接关系和关注关系,此时选择两者所确定权重的最大值作为该边上的权重,即<img file="dest_path_image038.GIF" wi="170" he="40" />;4) 基于博客网络图和关联权重的设置计算每个博客对其他博客信息传播影响力的期望值;5) 根据博客间信息传播影响力的期望值,识别博客网络图中信息传播影响力最大的关键节点集合,即关键博客集。
地址 210093 江苏省南京市汉口路22号