发明名称 一种面向中文Web评论的文本情感分类方法
摘要 本发明属于数据处理技术领域,公开了一种面向中文Web评论的文本情感分类方法。本发明包括训练过程和分类过程,训练过程为:训练文本预处理→特征选择→文本的向量化表示→训练分类器;分类过程为:测试文本预处理→特征选择→分类器分类→输出分类结果。本方法在原始文档分类方法的基础上加入使用文档频率(DF)、信息增益(IG)以及建立否定词、程度副词和动态情感词的情感词典判别各特征中文词语的情感倾向进行选取特征词、计算特征权值并构建特征向量,并使用NaiveBayes分类算法来训练得到分类器,对文本进行情感分类,为使用者提供有效的数据挖掘从而进行分析处理。
申请公布号 CN103116637A 申请公布日期 2013.05.22
申请号 CN201310050250.1 申请日期 2013.02.08
申请人 无锡南理工科技发展有限公司;江苏警官学院 发明人 李千目;倪铭;印杰;侯君
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种面向中文Web评论的文本情感分类方法,其特征在于:整个过程可分为两个部分:训练过程和分类过程;训练过程按照以下步骤进行:步骤一、训练文本预处理;步骤二、特征选择:用频数等统计量来计算文本中的词条在类别中的分布情况,经过特征选择,得到该类别的局部特征,所有类别的局部特征词集合的并集构成训练集的全局特征词集合;步骤三、文本的向量化表示:将每个类别映射到全局特征词集合上,进行向量化表示,便可得到类别的特征向量,特征向量包括权重和特征词个数;步骤四、训练分类器;分类过程按照以下步骤进行:测试文本预处理→特征选择→分类器分类→输出分类结果;具体处理如下:步骤一、测试文本预处理将测试文本化成全局特征词集合上的特征向量;步骤二、特征选择;步骤三、分类器分类:选择相应的分类方法,计算待测文本向量和类别向量之间的相似度,相似度值最大的类别就是待测样本最终的分类;步骤四、输出分类结果。
地址 214192 江苏省无锡市锡山区芙蓉三路99号锡山科创园瑞云6座三楼