发明名称 一种基于信息理论的微博传播可视化分析方法与系统
摘要 本发明公开了一种基于信息理论的微博传播可视化分析方法与系统,其分析方法是基于网络微博数据分析微博信息量以及用户对微博的情感偏好和用户关系偏好在微博传播中的作用,建立微博传播的量化模型,并结合信息可视化技术生成分析系统。其系统主要包括微博传播动态可视化展示、微博炒作传播发现以及微博传播过程中的异常行为发现等功能。基于量化的模型和动态的可视化使得用户对微博的传播机制更容易理解,并且有助于微博管理者管理微博传播(提高微博传播、增加微博活跃性、发现炒作行为和清楚异常用户),所以在微博研究和管理应用中都有很好的实用价值。
申请公布号 CN103279887A 申请公布日期 2013.09.04
申请号 CN201310151186.6 申请日期 2013.04.26
申请人 华东师范大学 发明人 王长波;叶鹏;刘玉华;肖昭
分类号 G06Q50/00(2012.01)I 主分类号 G06Q50/00(2012.01)I
代理机构 上海蓝迪专利事务所 31215 代理人 徐筱梅;张翔
主权项 1.一种基于信息理论的微博传播可视化分析方法,其特征在于该方法具体包括:a)基于微博数据的信息传播影响因子分析ⅰ)微博信息量计算基于信息理论即香农熵理论计算微博信息量,具体地,对于在t<sub>i+1</sub>时刻出现的某一微博<img file="FDA00003110994100011.GIF" wi="161" he="79" />其信息量由数据集<img file="FDA00003110994100012.GIF" wi="408" he="81" />确定,即t<sub>i+1</sub>时刻之前的数据来确定,包括以下几个步骤:1)对数据集<img file="FDA00003110994100013.GIF" wi="410" he="78" />中的每条微博进行关键词切分,然后统计出所有这些关键词在数据集中的词频,建立关键词词频字典;2)对于目标微博<maths num="0001"><![CDATA[<math><mrow><msub><mi>MB</mi><msub><mi>t</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>keyword</mi><mn>1</mn></msub><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msub><mi>keyword</mi><mi>i</mi></msub><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msub><mi>keyword</mi><mi>n</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>做类似的操作,并求出该微博中每个关键词的权重w<sub>i</sub>,keyword<sub>i</sub>为该微博所包含的关键词;<maths num="0002"><![CDATA[<math><mrow><msub><mi>w</mi><mi>i</mi></msub><mo>=</mo><mfrac><msub><mi>f</mi><mi>i</mi></msub><mi>total</mi></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>这里w<sub>i</sub>是微博关键词keyword<sub>i</sub>的权重值,f<sub>i</sub>是关键词keyword<sub>i</sub>在基数据集中出现的频次,total是基数据集中所有关键词的频次;3)计算目标微博<img file="FDA00003110994100016.GIF" wi="122" he="79" />的信息量MIQ,由下面公式得出:<img file="FDA00003110994100017.GIF" wi="850" he="160" />采用<img file="FDA00003110994100018.GIF" wi="410" he="86" />来确定目标微博<img file="FDA00003110994100019.GIF" wi="322" he="79" />的信息量,这里(k-i)/i=0.04;ⅱ)用户偏好计算通过分析用户对微博的情感偏好和用户关系偏好在微博传播中的作用,函数化模拟用户偏好在微博传播中的影响,情感偏好的计算具体包括:1)对于目标微博<maths num="0003"><![CDATA[<math><mrow><msub><mi>MB</mi><msub><mi>t</mi><mi>i</mi></msub></msub><mo>=</mo><mrow><mo>(</mo><msub><mi>keyword</mi><mn>1</mn></msub><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msub><mi>keyword</mi><mi>i</mi></msub><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msub><mi>keyword</mi><mi>n</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>求取每个关键词keyword<sub>i</sub>情感值:<maths num="0004"><![CDATA[<math><mrow><mi>KEV</mi><mrow><mo>(</mo><msub><mi>keyword</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mi>positive</mi></mtd></mtr><mtr><mtd><mo>-</mo><mn>1</mn></mtd><mtd><mi>negative</mi></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>]]></maths>2)求得该微博<img file="FDA000031109941000112.GIF" wi="103" he="83" />的情感值MEV定义为:<maths num="0005"><![CDATA[<math><mrow><mi>MEV</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>KEV</mi><mrow><mo>(</mo><msub><mi>keyword</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths>3)则该微博的情感ME可以被表示出来,如公式5所示:<maths num="0006"><![CDATA[<math><mrow><mi>ME</mi><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mi>positive</mi></mtd><mtd><mi>MEV</mi><mo>></mo><mn>0</mn></mtd></mtr><mtr><mtd><mi>neutral</mi></mtd><mtd><mi>MEV</mi><mo>=</mo><mn>0</mn></mtd></mtr><mtr><mtd><mi>negative</mi></mtd><mtd><mi>MEV</mi><mo>&lt;</mo><mn>0</mn></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>]]></maths>4)最后定义用户的情感偏好ET如下:<maths num="0007"><![CDATA[<math><mrow><mi>ET</mi><mo>=</mo><msup><mi>e</mi><mi>k</mi></msup><mo>+</mo><mi>&alpha;</mi><mo>,</mo><mi>k</mi><mo>=</mo><mfrac><msub><mi>Count</mi><mi>ME</mi></msub><mi>N</mi></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>]]></maths>这里Count<sub>ME</sub>是目标微博ME在基数据集中的数量,N是基数据集中基数据集中的微博总数,α是随机参数;用户关系偏好的计算具体包括:1)首先定义用户影响因子如公式(7),<maths num="0008"><![CDATA[<math><mrow><mi>UI</mi><mo>=</mo><mfrac><msub><mi>N</mi><mi>followers</mi></msub><msub><mi>N</mi><mi>total</mi></msub></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中,N<sub>followers</sub>是该用户粉丝的数量,N<sub>total</sub>是研究的数据集合中所有的用户数;2)用户关系偏好函数IF定义如下:IF=e<sup>UI</sup>+β   (8)其中β是随机参数;b)微博传播量化模型结合微博信息量与用户偏好以及信息衰减因子建立微博传播量化模型,定量地跟踪微博的传播过程,具体地,根据上面的分析,给出微博传播量化模型:IDF(t)=τ(t)·MIQ·UF   (9)UF=ET·IF   (10)其中,IDF(t)是传播到t时刻该微博的影响值,τ(t)=e<sup>-at</sup>是信息衰减因子,UF是用户偏好。
地址 200241 上海市闵行区东川路500号