发明名称 一种中文微博话题信息处理方法
摘要 一种中文微博话题信息处理方法,本发明涉及微博事件情感分布的原因分析算法。本发明是为了解决目前微博话题信息处理方法中采用的层次聚类算法和纠正算法的准确率低,不能将事件相关的微博划分到正确的主题下。本发明使用无监督学的层次聚类排序方法和半监督学的微博话题纠正算法两种方法,进行事件话题及其相关微博的挖掘,最终达到对相关微博进行情感分布统计及分析的目的。本发明能够更加准确地进行微博话题信息处理。本发明应用于微博话题信息处理领域。
申请公布号 CN105354216A 申请公布日期 2016.02.24
申请号 CN201510627783.0 申请日期 2015.09.28
申请人 哈尔滨工业大学 发明人 赵妍妍;秦兵;李泽魁
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 哈尔滨市松花江专利商标事务所 23109 代理人 杨立超
主权项 一种中文微博话题信息处理方法,其特征在于,所述处理方法包括以下步骤:步骤一:热点事件相关微博的判断;输入单个热点事件的相关微博,使用语言技术平台对文本预处理并通过关键词匹配方法判断微博是否相关;步骤二:微博的关键话题发现;通过统计微博中的Hashtag信息,挖掘热点事件微博中的话题信息,其中所述Hashtag为话题信息,即微博中两个“#”符号之间的文字;步骤三:话题的聚类排序算法;得到热点事件的相关微博后,首先进行话题抽取与聚类排序,其中所述话题抽取工作是指将微博所描述的话题信息进行抽取总结,话题的聚类排序是指先将部分相似的话题进行聚类处理;(1)层次聚类算法采用Hashtag字符串相似度算法,即字符串相似度作为聚类中距离计算的依据,计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>Similarity</mi><mrow><mi>H</mi><mi>a</mi><mi>s</mi><mi>h</mi><mi>t</mi><mi>a</mi><mi>g</mi></mrow></msub><mrow><mo>(</mo><msub><mi>H</mi><mi>A</mi></msub><mo>,</mo><msub><mi>H</mi><mi>B</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>L</mi><mi>e</mi><mi>n</mi><mi>g</mi><mi>t</mi><mi>h</mi><mrow><mo>(</mo><mi>L</mi><mi>C</mi><mi>S</mi><mo>(</mo><mrow><msub><mi>H</mi><mi>A</mi></msub><mo>,</mo><msub><mi>H</mi><mi>B</mi></msub></mrow><mo>)</mo><mo>)</mo></mrow></mrow><mrow><mi>min</mi><mrow><mo>(</mo><mi>L</mi><mi>e</mi><mi>n</mi><mi>g</mi><mi>t</mi><mi>h</mi><mo>(</mo><msub><mi>H</mi><mi>A</mi></msub><mo>)</mo><mo>,</mo><mi>L</mi><mi>e</mi><mi>n</mi><mi>g</mi><mi>t</mi><mi>h</mi><mo>(</mo><msub><mi>H</mi><mi>B</mi></msub><mo>)</mo><mo>)</mo></mrow></mrow></mfrac><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mi>E</mi><mi>d</mi><mi>i</mi><mi>t</mi><mi>D</mi><mi>i</mi><mi>s</mi><mi>tan</mi><mi>c</mi><mi>e</mi><mrow><mo>(</mo><msub><mi>H</mi><mi>A</mi></msub><mo>,</mo><msub><mi>H</mi><mi>B</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>max</mi><mrow><mo>(</mo><mi>L</mi><mi>e</mi><mi>n</mi><mi>g</mi><mi>t</mi><mi>h</mi><mo>(</mo><msub><mi>H</mi><mi>A</mi></msub><mo>)</mo><mo>,</mo><mi>L</mi><mi>e</mi><mi>n</mi><mi>g</mi><mi>t</mi><mi>h</mi><mo>(</mo><msub><mi>H</mi><mi>B</mi></msub><mo>)</mo><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000813193200000011.GIF" wi="1910" he="254" /></maths>其中所述H<sub>A</sub>和H<sub>B</sub>为S<sub>A</sub>和S<sub>B</sub>中的Hashtag字符串,S<sub>A</sub>为微博文本A,S<sub>B</sub>为微博文本B,LCS为两个字符串的最长公共子序列,Edit Distance为编辑距离,对两个字符串相似度的数值作了归一化处理,即公式的前后两部分分别除以了字符串H<sub>A</sub>和H<sub>B</sub>中的min(Length(H<sub>A</sub>),Length(H<sub>B</sub>))和max(Length(H<sub>A</sub>),Length(H<sub>B</sub>));(2)话题聚类结果排序算法采用根据微博数目与聚类结果话题数的加权关系作为排序公式;RankingScore(topic)=log(topic<sub>weibonumber</sub>)·topic<sub>num</sub>          (4)式中RankingScore(topic)是话题topic对应的排序得分,topic <sub>weibonumbe r</sub>为话题下含有的微博数目,topic<sub>num</sub>为结果中合并的话题数目,对微博数目进行了对数处理;步骤四:微博话题纠正算法;(1)初始输入:话题聚类排序后的结果共K个,包括前S个话题和后U个话题;(2)前S个话题划分为“种子话题”,后U个话题划分为“非种子话题”,U个话题按照与S个话题的相似度排序划分为待预测集U1和训练反例集U2;(3)对S个话题的语料进行特征抽取以及模型训练;(4)将训练得到的模型预测非种子待预测集U1;(5)将U1中微博分类结果概率大于阈值的直接加入到对应S个话题中,同时将微博从待预测集U1中删除;(6)从第(2)步开始循环,直至达到S个话题对应微博的添加率小于阈值的条件,完成循环;(7)最终输出:自扩充的S个话题及其相关微博;步骤五:采用准确率@5指标进行评价;采用准确率@5指标反映算法的排序结果的优劣性,使用微博数目平均添加率和追加微博的平均命中率作为微博自扩充算法的评价指标;所述准确率@5指标为排序结果最前的5条预测正确的话题数目与前5条标准答案中话题数目的比值,即公式(5):<img file="FDA0000813193200000021.GIF" wi="1349" he="136" />微博数目平均添加率是每个话题相关的微博自扩充后的添加率平均值,即公式(6):<img file="FDA0000813193200000022.GIF" wi="1604" he="142" />追加微博的平均命中率,即算法中追加到现有话题的微博正确命中的数目与当前话题的微博数目比值,即公式(7):<img file="FDA0000813193200000023.GIF" wi="1566" he="141" />
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号