主权项 |
一种基于语料的情感词典构建方法,其特征在于包括以下步骤:第一步,利用中文分词工具,对语料进行预处理,将语料中连续的中文句子划分成一个个词或者字,用空格隔开,并标记词或者字的词性;第二步,统计出语料中所有形容词的词频并按从高到低进行排序,取前5%‑10%有确定情感极性的形容词作为种子词构成情感词库,并分析种子词的情感极性,将正面评价的词的极性称为积极的,将负面评价的词的极性称为消极的,分别构成两个种子词列表,这两个种子词列表作为情感词库的初始列表,初始词频为1;第三步,取经过预处理的语料中的文本,若有需要分析的语料,按照标点对文本进行断句,得到多个分句,分句中不含标点,继续执行第四步;若没有需要分析的语料,则转至第六步;第四步,搜索得到的每一个分句中的形容词,设定一个阈值K,在形容词所在位置的前K个词或字范围内遍历,根据汉语词典中指出的具有否定意义的词,判断是否有否定词,若有,则根据极性转移规则添加到相应列表中,否则停止寻找否定词;再根据汉语词典中指出的具有转折意义的词,判断该分句是不是以转折词开头,若是,则根据极性转移规则改变当前极性,否则极性不变;然后分别按极性转移规则将分句中的形容词添加到两个列表s和a中; 第五步,分析第四步得到的两个列表s和a的极性,即用情感词库中的种子词检验列表s和a的极性,若其中一个列表中含有积极种子词的数目不少于消极种子词的,则该列表中所有的词归为积极的,另一列表中的词则归为消极的;若两个列表中均分别含有相同数量的消极种子词和积极种子词,则返回第三步;否则,把两个列表s和a中判断出极性的形容词添加到情感词库的初始列表中作为种子词,若初始列表中已有该形容词,则把其词频加1,否则设置该形容词的词频为1,返回第三步;第六步, 对得到的最终的情感词库进行遍历,对同时被判断为积极和消极的词,取其词频,若属于积极的词频高,则该词为积极的,否则为消极的。 |