发明名称 一种微博情感可视化方法
摘要 本发明公开了一种微博情感可视化方法,基于统计获得的关键词词频数据及情感计算获得的8维情感结果,根据相关策略做出微博热点事件全国关注趋势图、微博热点事件情感全国分布图及微博热点事件地区分布图。
申请公布号 CN104239383A 申请公布日期 2014.12.24
申请号 CN201410254028.8 申请日期 2014.06.09
申请人 合肥工业大学 发明人 任福继;刘宁;康鑫
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 安徽合肥华信知识产权代理有限公司 34112 代理人 余成俊
主权项 一种微博情感可视化方法,其特征在于:包括以下步骤:(1)、扩充指定话题关键词集合:由于微博内容上的口语化,获取到的指定话题微博数据中,指定话题原有的种子关键词并不是规范化表述,此时需要将指定话题原有的的种子关键词口语话、俚语化,扩充步骤如下:(1.1)、将指定话题微博文本分词,统计词频,并确定指定话题原有的种子关键词;(1.2)、按词频排序,取前20个词作为候选指定话题种子关键词;(1.3)、根据公式(1)计算20个候选指定话题种子关键词与指定话题原有的种子关键词的相似度:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>d</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>log</mi><mfrac><mrow><mi>p</mi><mrow><mo>(</mo><mi>word</mi><mo>_</mo><msub><mi>seed</mi><mi>j</mi></msub><mo>,</mo><msub><mi>word</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>p</mi><mrow><mo>(</mo><mrow><mi>word</mi><mo>_</mo><msub><mi>seed</mi><mi>j</mi></msub></mrow><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>word</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000518035130000011.GIF" wi="1244" he="172" /></maths>其中,word_seed<sub>j</sub>表示指定话题原有的种子关键词,word<sub>i</sub>表示候选指定话题种子关键词,p(word_seed<sub>j</sub>,word<sub>i</sub>)表示指定话题原有的种子关键词与候选指定话题种子关键词在微博文本中同时出现的概率,p(word_seed<sub>j</sub>)表示指定话题原有的种子关键词在微博文本中出现的概率,p(word<sub>i</sub>)表示候选指定话题种子关键词在微博文本中出现的概率,d表示候选指定话题种子关键词与指定话题原有的种子关键词的相似性;(1.4)、根据步骤(1.3)的计算结果,取相似度排名前10个的候选指定话题种子关键词作为扩充的种子关键词,扩充的种子关键词与指定话题原有的种子关键词一起作为话题关键词集合,记为K;(2)、分离指定话题微博数据:将指定话题微博数据按照微博所属城市拆分为地区微博数据,记为D<sub>city</sub>;根据微博发布时间,以天为单位,将指定话题微博数据拆分为时间微博数据,记为D<sub>time</sub>;(3)、将步骤(2)获取的地区微博数据按照时间以天为单位拆分为地区时分微博数据,记为D<sub>city</sub><sup>time</sup>;(4)、统计指定话题微博数据分离后的时间微博数据D<sub>time</sub>中的种子关键词的频率,按天计算所有种子关键词的频率和即为指定话题微博数据中该话题当天的关注度,根据统计数据,采用折线图,不同话题选择不同的颜色区分,以关键词频率为纵轴,以时间为横轴,即可得到以天为单位的指定话题指定时间段内全国关注度趋势图;统计地区时分微博数据D<sub>city</sub><sup>time</sup>中的种子关键词的频率,按照上述方法,以关键词频率为纵轴,以时间及城市为横轴,即可得到指定话题地区关注度趋势对比图,当前话题地区关注度趋势对比图中采用簇状柱状图表示对比信息;(5)、作指定话题全国情感分布图及地区分布图,过程如下:(5.1)、计算指定话题微博数据的时间微博数据D<sub>time</sub>及地区时分微博数据D<sub>city</sub><sup>time</sup>;获得指定话题每天的8维微博情感结果,如公式(2)所示:E=(e<sub>hate</sub>,e<sub>anger</sub>,e<sub>sorrow</sub>,e<sub>anxiety</sub>,e<sub>surprise</sub>,e<sub>love</sub>,e<sub>joy</sub>,e<sub>expect</sub>)  (2)其中,公式(2)中的向量元素依次表示指定话题微博在憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感下的情感强度值;(5.2)、采用三维堆积柱状图表示指定话题微博每天的情感强度值,分别使用RGB色#EE9572、#9AC0CD、#CD8162、#5CACEE、#5D478B、#6E8B3D、#8B2500、#3A5FCD表示憎恨、生气、悲伤、焦虑、惊讶、喜爱、高兴、期望8种情感,以情感强度为横轴,以时间线及地区为纵轴,做出指定话题微博地区情感分布图,并以情感强度为横轴,以时间线为纵轴,做出指定话题微博全国情感分布图。
地址 230009 安徽省合肥市屯溪路193号