发明名称 微博网络意见领袖识别方法
摘要 本发明公开了一种微博网络意见领袖识别方法,用于解决现有的意见领袖识别方法召回率差的技术问题。技术方案是利用网络爬虫工具,将从互联网中采集的网络拓扑信息存入数据库;构建有向网络图G=(V,E);计算有效粉丝集合Ef(u);计算由链接关系所产生的节点权值IRL(ui);计算由节点交互关系所产生的节点权值IRTR(ui);计算节点综合权值IR(ui);计算网络图中所有节点的综合权值,并按综合权值由大到小排序,选取综合权值较大的n个节点,作为意见领袖的候选对象。由于在计算节点权重时,考虑到节点拥有的粉丝数量以及节点链接关系和交互关系等因素,提高了召回率和准确率。经检测,召回率由背景技术的81.7~88.5%提高到89.3%以上,准确率由背景技术的84.7~90.4%提高到91.7%以上。
申请公布号 CN103136331A 申请公布日期 2013.06.05
申请号 CN201310027808.4 申请日期 2013.01.18
申请人 西北工业大学 发明人 蔡霖;蔡皖东;彭冬
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西北工业大学专利中心 61204 代理人 王鲜凯
主权项 一种微博网络意见领袖识别方法,其特征在于包括以下步骤:步骤一、利用网络爬虫工具,从互联网中采集实际的微博网络数据,提取其中的网络拓扑信息存入数据库待处理;步骤二、构建微博有向网络图G=(E,V)式中,E表示节点关系集合,V表示节点集合;步骤三、计算有效粉丝集合Ef(u)Ef(u)={v|v∈Follower(u)∧Response(u)>δ}式中,δ是非负常数阈值,表示节点u的粉丝节点v对节点u的反馈程度门限,超过该阈值且属于节点u的粉丝才能算作有效粉丝;步骤四、计算由链接关系所产生的节点权值IRL(ui) <mrow> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mi>&sigma;</mi> <mi>N</mi> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>Follower</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mi>IRL</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>式中,Follower(ui)为节点ui的所有粉丝集合,L(uj)为节点uj的粉丝数目,σ是介于0和1的阻尼系数,N为网络图中的总节点数;步骤五、计算由节点交互关系所产生的节点权值IRTR(ui) <mrow> <mi>IRTR</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>Tweet</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>Re sponse</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mo>|</mo> <msub> <mi>N</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>N</mi> <mi>&mu;</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>A</mi> <mo>|</mo> </mrow> </mfrac> </mrow>式中,Tweet(ui)为节点ui帖子集合,A表示所有具有交互情况的帖子集|A|是A的集合,Ns(uj)是节点uj针对帖子tj,的响应次数,Nμ(uj)为响应平均值,Response包括用户转帖、回帖、评论和收藏;步骤六、计算节点综合权值IR(ui)IR(ui)=(1‑β)×IRL(ui)+β×IRTR(ui)式中,参数β(β∈[0,1])决定链接关系和节点交互关系两个因子在节点权值计算中所处的地位;当β较小时,节点权值由链接关系决定,特别当β=0时则完全由链接关系来计算权值;步骤七、计算网络图中所有节点的综合权值,并按综合权值由大到小排序,选取综合权值较大的n个节点,作为意见领袖的候选对象。
地址 710072 陕西省西安市友谊西路127号