发明名称 |
一种面向微博短文本的情感分析方法及其系统 |
摘要 |
本发明公开了一种面向微博短文本的情感分析方法及其系统,本发明首先利用混合高斯分布生成伪样本,利用混合高斯分布模型来为训练集中的少数类生成伪样本,从而构建一个情感倾向分布平衡的训练集,以降低数据集情感倾向分布的不平衡性对情感分类效果的影响;接着对微博文本预处理、Word2vec扩展微博、特征抽取、情感分析模型训练以及进行情感倾向性识别。利用本发明的方案,能够有效地解决当中文微博数据集出现情感倾向分布不平衡时的情感倾向识别问题,并且实施十分简单,识别率高,具有很强的实际应用价值和现实意义。 |
申请公布号 |
CN106202032A |
申请公布日期 |
2016.12.07 |
申请号 |
CN201610489643.6 |
申请日期 |
2016.06.24 |
申请人 |
广州数说故事信息科技有限公司 |
发明人 |
梁礼欣;吴文杰;李本栋 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
广州圣理华知识产权代理有限公司 44302 |
代理人 |
李唐明;顿海舟 |
主权项 |
一种面向微博短文本的情感分析方法,其特征在于,至少包括如下步骤:生成伪样本步骤:对于一个微博文本的训练集t1,将其中的数据分为多数类maj1和少数类min1,即情感倾向占多数的数据类别为多数类,情感倾向占少数的数据类别为少数类;利用混合高斯分布模型来为训练集t1中的少数类生成伪样本,构建一个情感倾向分布平衡的训练集;预处理步骤:对微博文本进行清洗过滤,并至少对微博文本进行分词、词性标注和停用词处理的操作;扩展微博步骤:通过利用Word2vec来求微博文本中每个词的前K个相似词从而扩展微博;特征抽取步骤:利用情感分析词典,对经过预处理步骤的微博文本进行特征抽取;情感分析模型训练步骤:利用CRF模型对经过生成伪样本步骤和扩展微博步骤处理的微博文本进行处理,得到GWCRF模型;然后将特征抽取步骤中从微博文本提取出来的特征作为特征向量输入,来训练GWCRF模型;情感倾向性识别步骤:利用训练好的GWCRF模型对待预测的微博文本进行情感倾向识别。 |
地址 |
广东省广州市天河区黄埔大道西100号之一702房之五 |