发明名称 基于语料的情感词典构建方法
摘要 本发明公开了一种基于语料的情感词典构建方法,通过预先获得一部分已知情感倾向的形容词,包括积极的和消极的两种,再利用转折词和否定词,提取并分析未知情感倾向的形容词,不断扩展种子词库,最后做出判断。该方法不需要人工干预,且属于无监督的学方法,能大大提高工作效率。该方法构造的情感词典,可以用于评论分析,能快速地得到其情感倾向,达到快速分析的目的。
申请公布号 CN104317965A 申请公布日期 2015.01.28
申请号 CN201410649358.7 申请日期 2014.11.14
申请人 南京理工大学 发明人 夏睿;王科;周清清;刘超
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京理工大学专利中心 32203 代理人 朱显国
主权项 一种基于语料的情感词典构建方法,其特征在于包括以下步骤:第一步,利用中文分词工具,对语料进行预处理,将语料中连续的中文句子划分成一个个词或者字,用空格隔开,并标记词或者字的词性;第二步,统计出语料中所有形容词的词频并按从高到低进行排序,取前5%‑10%有确定情感极性的形容词作为种子词构成情感词库,并分析种子词的情感极性,将正面评价的词的极性称为积极的,将负面评价的词的极性称为消极的,分别构成两个种子词列表,这两个种子词列表作为情感词库的初始列表,初始词频为1;第三步,取经过预处理的语料中的文本,若有需要分析的语料,按照标点对文本进行断句,得到多个分句,分句中不含标点,继续执行第四步;若没有需要分析的语料,则转至第六步;第四步,搜索得到的每一个分句中的形容词,设定一个阈值K,在形容词所在位置的前K个词或字范围内遍历,根据汉语词典中指出的具有否定意义的词,判断是否有否定词,若有,则根据极性转移规则添加到相应列表中,否则停止寻找否定词;再根据汉语词典中指出的具有转折意义的词,判断该分句是不是以转折词开头,若是,则根据极性转移规则改变当前极性,否则极性不变;然后分别按极性转移规则将分句中的形容词添加到两个列表s和a中; 第五步,分析第四步得到的两个列表s和a的极性,即用情感词库中的种子词检验列表s和a的极性,若其中一个列表中含有积极种子词的数目不少于消极种子词的,则该列表中所有的词归为积极的,另一列表中的词则归为消极的;若两个列表中均分别含有相同数量的消极种子词和积极种子词,则返回第三步;否则,把两个列表s和a中判断出极性的形容词添加到情感词库的初始列表中作为种子词,若初始列表中已有该形容词,则把其词频加1,否则设置该形容词的词频为1,返回第三步;第六步, 对得到的最终的情感词库进行遍历,对同时被判断为积极和消极的词,取其词频,若属于积极的词频高,则该词为积极的,否则为消极的。
地址 210094 江苏省南京市孝陵卫200号