发明名称 一种基于词典的文本情感分析方法
摘要 本发明涉及一种基于词典的文本情感分析方法,其是通过(1)构建基础情感词典,(2)语料处理,(3)分词,(4)提取特征值,(5)计算每个语句的权重,(6)计算文本的权重,从而确定待分析文本的情感,本发明的分析方法取得了良好的效果,正确率高,处理速度快,而且不需要对语料进行训练,所需人工成分较少,而且通用性较强,适于大范围推广应用。
申请公布号 CN106294316A 申请公布日期 2017.01.04
申请号 CN201610616691.7 申请日期 2016.07.29
申请人 陕西师范大学 发明人 袁柳;姚文杰;王静
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 西安永生专利代理有限责任公司 61201 代理人 申忠才
主权项 一种基于词典的文本情感分析方法,其特征在于由以下步骤组成:(1)构建基础情感词典搜集哈工大信息检索研究中心同义词词林扩展版、台湾中文情感极性词典以及知网的情感分析用词语集,将这些词典合并后去重,对每个词语标等级后计算该词语的权重,将每个词语及其对应的极性、词性、等级、权重值组合构建成基础情感词典;(2)语料处理对待分析的文本进行判断,若文本长度大于等于200字,则认定为由多个句子组成,采用hanlp提取中心思想法或ICTCLAS提取中心思想法提取该待分析文本的中心思想;若文本长度小于200字,进行下一步处理;(3)分词提取步骤(2)长度小于200字的待分析文本或待分析文本的中心思想中所包含的每个语句,通过HanLp分词处理法或ICTCLAS分词处理法对每个语句进行分词处理,去掉分词语句中的停词,得到去停词语句;(4)提取特征值将步骤(3)所得的去停词语句中每个词语与步骤(1)的基础情感词典进行匹配,提取去停词语句中每个词语所对应的等级和权重,并计算每个词语的等级与权重的乘积,得到该语句中每个词语对应的特征值;(5)计算每个语句的权重判断步骤(3)的每个去停词语句中的每个词语的极性,利用步骤(4)所得语句中每个词语对应的特征值按照下述方法计算每个语句的权重,计算方法如下:若语句中是相邻的形容词、动词、名词或副词词性,则语句的权重等于各词语的特征值之和;若语句中是否定词与否定词的组合或者是副词与其修饰的形容词的组合或者是副词与其修饰的动词的组合或者是形容词与其修饰的名词或者是否定词与副词的组合,则该语句的权重为各词语的特征值之积;(6)计算文本的权重对步骤(5)所得的每个语句的权重求和,得到该待分析文本的权重值,若待分析文本的权重大于0,则该文本是褒义;否则是贬义。
地址 710062 陕西省西安市长安南路199号