发明名称 一种文本情感分析特征验证的前置处理方法
摘要 本发明公开了一种文本情感分析特征验证的前置处理方法,通过对原始训练集的预处理得到预处理信息:确定原始训练集的概要,确定原特征向量集的概要,对原始数据进行扩充,从而构造出整合后的预处理信息;然后,对预处理信息进行特征验证和特征选择。本发明的积极效果是:本发明从训练集和特征向量两个方面着手生成分析信息,既保障了评估结论的信息丰富程度,同时又有助于提高整个情感分析流程的准确度。本发明还具备良好的通用性和可扩展性,对各种不同建模和实现的情感分析算法都能发挥良好效果。
申请公布号 CN105468731A 申请公布日期 2016.04.06
申请号 CN201510815462.3 申请日期 2015.11.20
申请人 成都科来软件有限公司 发明人 罗鹰;张鑫阳;林康
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都九鼎天元知识产权代理有限公司 51214 代理人 邓世燕
主权项 一种文本情感分析特征验证的前置处理方法,其特征在于:包括如下步骤:步骤一、对原始训练集的预处理得到预处理信息:S1、确定原始训练集的概要,并输出结果sample_struct,包括:样本总体数量参数sample_size、情感分类的分布参数sample_dist和文本信息分布内容参数sample_text_info;S2、输入待验证的特征向量集,确定原特征向量集的概要,并输出结果vector_struct,包括:多标号参数vector_multi、硬性柔性参数vector_prop和特征向量的维度参数vector_dimen;S3、对原始数据进行扩充,并输出结果addtion_sets:包括:(1)若特征向量的维度参数vector_dimen是低维的且不包含词频信息,则构建基于词袋模型的特征向量,对低维度的特征向量进行补充,得到词频信息补充结果tf_addition_set;(2)若情感分类的分布参数sample_dist分布不均衡,则对训练集进行均衡化处理,得到均衡化处理结果even_addition_set;S4、构造出整合后的预处理信息,包括:原始特征向量集origin_set、追加特征向量集addtion_sets、特征向量集属性vector_struct、训练集属性sample_struct;步骤二、对预处理信息进行特征验证和特征选择:S1、对于原始特征向量集:根据sample_size值和vector_dimen值,在同时进行基于交叉验证做判断标准的特征选择和基于bootstrap来验证分类准确率两种处理之后,对处理结果乘以不同的权重;S2、对于参考向量集:逐个特征向量集采用通用的InfoGain选择出代表性的特征项;采用类bagging算法构建向量集,对向量集中的每个向量通过多数投票的方式确定理论推算的分类值,再通过向量集的推算分类值与训练集的实际分类值的差距获得训练集信息。
地址 610041 四川省成都市高新区天府大道中段801号