发明名称 一种中文文本情感识别方法
摘要 本发明公开了一种中文文本情感识别方法。本方法为:1)分别构建褒贬义词典、程度词典、否定词典;2)对待处理语料文本的句子进行分词处理,得到词语的依存关系和词频;3)根据词频选取主题词,将包含主题词的语句标为主题句;4)对句子中的每一词语,判断其是否出现在该褒贬义词典中确定该词语的情感初值,并根据词语的依存关系确定出该词语的修饰程度词语和否定词语,然后根据修饰程度词语在程度词典的取值确定该词语的权重、根据否定词语数目确定极性,得到该词语的情感值;然后对该句子所有词语的情感值求和得到该句子的情感值;5)将该文本中的所有句子的情感值进行求和,得到该文本的情感状态。本发明大大提高文章情感识别的准确率。
申请公布号 CN103678278A 申请公布日期 2014.03.26
申请号 CN201310690318.2 申请日期 2013.12.16
申请人 中国科学院计算机网络信息中心 发明人 崔现鹏;汪海燕;黎建辉;崔建业
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 余长江
主权项 一种中文文本情感识别方法,其步骤为:1)分别构建包含正向词语和负向词语的褒贬义词典,构建修饰程度词语的程度词典,构建用于确定否定词语的否定词典;2)利用语法分析工具对待处理语料文本的句子进行分词处理,得到词语的依存关系并统计每个词语的词频;3)根据词频对分词所得词语排序,选取指定数目的词语作为主题词,将包含主题词的语句标为主题句;4)对句子中的每一词语,判断其是否出现在该褒贬义词典中确定该词语的情感初值,并根据词语的依存关系确定出该词语的修饰程度词语和否定词语,然后根据确定出的修饰程度词语在所述程度词典的取值确定该词语的权重系数、根据确定出的否定词语数目确定该词语的极性,从而得到该词语的情感值;然后对该句子所有词语的情感值求和得到该句子的情感值;5)将该待处理语料文本中的所有句子的情感值进行求和,得到该待处理语料文本的情感状态。
地址 100190 北京市海淀区中关村南四街4号