发明名称 虚假网络舆情识别方法
摘要 本发明公开了一种虚假网络舆情识别方法,用于解决现有的互联网虚假网络舆情识别方法需要处理大量网络信息的技术问题。技术方案是首先采用行为分析技术,对网络论坛信息传播行为进行建模分析,检测出网络热点事件和舆情。然后依据网络水军行为特征,对网络舆情进行多个层面关联性分析,包括空间关联性、时间关联性、主题关联性以及情感关联性等,识别出可能存在的虚假网络舆情。将所处理的网络信息量减少到了最低限度。
申请公布号 CN102929918B 申请公布日期 2015.11.18
申请号 CN201210350085.7 申请日期 2012.09.20
申请人 西北工业大学 发明人 蔡皖东;蔡霖
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西北工业大学专利中心 61204 代理人 王鲜凯
主权项 一种虚假网络舆情识别方法,其特征在于包括以下步骤:步骤一、利用网络数据采集工具,从互联网中需要监测的网络论坛上采集网络发帖信息、发帖用户信息、帖子内容、回帖用户信息以及回帖内容,提取其中的元信息,网络信息经过预处理后存入数据库待分析;步骤二、对于每个被监测的网络论坛,按下列方法检测是否存在网络舆情或热点事件;以用户为节点,用户之间的联系为节点之间的连线,建立用户-用户网络模型;通过用户-用户之间的联系形成有向网络,在一个带值的有向网络中,一个节点的威望度是指这个节点的入度与所有节点的入度和的比值,威望度计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>P</mi><mi>D</mi></msub><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>x</mi><mrow><mi>i</mi><mo>-</mo></mrow></msub><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>x</mi><mrow><mi>i</mi><mo>-</mo></mrow></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000781043340000011.GIF" wi="950" he="288" /></maths>式中,x<sub>i‑</sub>表示节点v<sub>i</sub>入度;入度是指所有指向该节点的所有连线上数值之和;在一个带值的有向网络中,一个节点的中心度是指这个节点的出度与所有节点的出度和的比值;中心度计算公式如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>C</mi><mi>D</mi></msub><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>x</mi><mrow><mi>i</mi><mo>+</mo></mrow></msub><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>x</mi><mrow><mi>i</mi><mo>+</mo></mrow></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000781043340000012.GIF" wi="907" he="255" /></maths>式中,x<sub>i+</sub>表示节点v<sub>i</sub>的出度;出度是指所有指向其他结点的所有连线上数值之和;建立用户-事件网络模型,通过用户与事件之间的联系形成无向网络;事件的中心度是指参与该事件的人数与总人数个数的比值;事件的中心度计算公式如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>C</mi><mi>E</mi></msub><mrow><mo>(</mo><msub><mi>e</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>x</mi><mi>i</mi></msub><mi>m</mi></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000781043340000013.GIF" wi="751" he="138" /></maths>式中,x<sub>i</sub>表示参与事件e<sub>i</sub>的用户,m表示该用户-事件网络模型中总的用户个数;将用户从网络中剥离出来,建立事件-事件网络模型,计算出事件之间的关联度;利用用户-用户网络模型计算出节点的威望度和中心度,检测出威望度和中心度值大的用户,利用用户-事件网络模型计算出事件中心度,检测出中心度值大的事件;将用户-事件网络模型转换成事件-事件网络模型,计算出帖子之间的关联度,找出属于同一个主题的帖子,判断是否网络水军发的帖子;步骤三、根据网络水军发帖行为和帖子特征,对不同网络论坛出现的网络舆情或热点事件进行多层面分析,识别出可能存在的虚假网络舆情;(1)对每一个ID账号发帖时所使用的IP地址进行统计分析,计算出同一个IP地址的帖子量;通过空间关联性分析,检测出不同网络论坛上热点事件帖子的ID账号与IP地址之间关联性,计算它们的空间关联度;(2)通过时间关联性分析,检测出不同网络论坛上热帖的时间关联性,计算它们的时间关联度;(3)通过主题内容语义分析,检测出不同网络论坛上热帖的主题关联性,计算它们的主题关联度;(4)通过对不同网络论坛上热帖所表达的情感进行多层次分析,包括词汇、句子和文档,检测出不同网络论坛上热帖的情感关联性,计算它们的情感关联度;(5)根据对所有网络热点事件的关联性分析结果,如果一个网络热点事件同时具有上述四个关联度,则该网络热点事件为虚假网络舆情;如果一个网络热点事件同时具有上述三个关联度,则该网络热点事件为高度疑似虚假网络舆情;如果一个网络热点事件同时具有上述二个关联度,则该网络热点事件为一般疑似虚假网络舆情。
地址 710072 陕西省西安市友谊西路127号