发明名称 一种基于标准词典和语义规则的微博情感分析方法
摘要 本发明公开一种基于标准词典和语义规则的微博情感分析方法,包括:收集微博数据并对每条微博的情感值进行人工标记打分;建议相应的标准微博情感词典,建立情感词典数据库;基于标准情感词典,加入语义规则辅助,并对语义规则参数进行调参优化;基于真实数据集实验,得出最终的分类正确率和准确率。采用本发明的技术方案,通过引入标准情感词典、微博表情词典和语义规则,能够很好的分析出每条微博用户的情感倾向,具有更好的分类正确率和准确率。
申请公布号 CN106202584A 申请公布日期 2016.12.07
申请号 CN201610836065.9 申请日期 2016.09.20
申请人 北京工业大学 发明人 方超;姚海鹏;赵天奇;王越乔
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I;G06Q50/00(2012.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 张慧
主权项 一种基于标准词典和语义规则的微博情感分析方法,包括如下步骤:步骤S1、收集微博数据集收集新浪微博真实微博数据集,并对每条微博的情感倾向值进行人工打分;步骤S2、对微博数据做归一化文本预处理将收集到的微博数据做文本预处理工作,删去特殊字符和移除文本中存在的微博表情符号,将微博文本统一划分为只含有微博表情的部分和利于程序分析的纯文本部分;步骤S3、建立微博标准情感词典数据库微博标准情感词典数据库包含微博情感词词典、褒义词基准词典、贬义词基准词典、程度副词词典、否定副词词典和微博表情词典;词典包含因素有词语名称、词语强度、词语极性、词语词性,其中,分析微博情感时,需要进行分句、去停用词、分词操作,分词后的微博由各种成分的词组成,此时需要在微博标准情感词典数据库中进行检索,确定微博中情感词的情感值;步骤S4、建立微博分析核心算法词语情感值E(w<sub>i</sub>)可以表示E(w<sub>i</sub>)=v×Neg×Deg,其中,v表示情感词,Neg表示情感词对应的否定副词,Deg表示情感程度副词。如果用E(S)表示整个句子的情感值,E(s<sub>i</sub>)表示第i个分句s<sub>i</sub>的分句情感值,那么E(s<sub>i</sub>)的情感值为<img file="FDA0001117523210000011.GIF" wi="451" he="134" />其中,R<sub>i</sub>表示当前分句的句间关系系数;整句情感值E(S)可以表示为,<img file="FDA0001117523210000012.GIF" wi="421" he="126" />其中,P<sub>i</sub>表示句型系数;如果用E(text)表示文本的情感值,那么<img file="FDA0001117523210000013.GIF" wi="387" he="134" />将微博文本与微博表情进行有效的结合,确定表情与文本所占的比例,微博情感的最终表达式为E(microblog)=0.4E(emoticon)+0.6E(text),其中,E(emoticon)表示微博表情的情感值;步骤5、基于真实数据集实验,获得分类正确率将步骤S1和步骤S2中得到的数据,输入到步骤S4所建立的情感分析算法之中,对每条微博数据进行分析,将分析的结果与人工标注的结果进行比对,采用在正向、负向以及中性微博上的正确率、召回率、F值(F‑Measure)作为微博情感极性判别的标准,将三者的值取平均得到最终的分类正确率。
地址 100124 北京市朝阳区平乐园100号