发明名称 一种基于文本特征嵌入的中文短文本情感分类方法
摘要 本发明公开了一种基于文本特征嵌入的中文短文本情感分类方法,采用文本特征嵌入的方式进行特征提取,首先通过词嵌入将词表示为较短长度的向量,一方面降低了特征的维度,另一方面可以较好地描述词与词之间的相似关系;然后根据不同的词在文本中所处的位置对词向量进行加权,从而进行文本特征嵌入,得到较低维度的文本特征,在基础上进行中文短文本情感分类,从而提高中文短文本情感分类精度。另外,由于网络语言变化快,中文短文本的随意性强,本发明采用增量学的方式不断更新词向量,使其能够紧跟待训练文本的变化,以提高文本情感分类的精度。
申请公布号 CN106055673A 申请公布日期 2016.10.26
申请号 CN201610392495.6 申请日期 2016.06.06
申请人 中国人民解放军国防科学技术大学 发明人 张胜;李沛;程佳军;丁兆云;张鑫;王晖;沈大勇;陈科第;叶栋;乔凤才
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京轻创知识产权代理有限公司 11212 代理人 谈杰
主权项 一种基于文本特征嵌入的中文短文本情感分类方法,其特征在于,包含如下步骤:步骤1)采用Wiki中文所有数据进行初始化词向量训练;步骤2)以Wiki中文训练出的词向量为初始向量,采用分类相关数据集进行词向量优化训练;步骤3)采用步骤2)训练出的词向量,对分类训练集中文本进行特征嵌入;步骤4)以步骤3)得到的文本分布式特征向量为文本特征,采用logistic分类进行分类器训练;步骤5)采集需要进行情感分类的中文短文本;步骤6)对采集到的数据进行预处理,首先进行去重处理,然后对剩下的文本进行分词并去除停用词;步骤7)如需要更新词向量,以新采集到的数据为训练集,重复步骤2)至步骤4),分别进行词向量、分类训练集文本向量和logistic分类器的更新训练;步骤8)采用上一次更新过程中步骤2)训练出的分布式词向量,对待分类文本进行特征嵌入;步骤9)以步骤8)中得到的文本向量为特征,采用上一次更新过程中步骤4)训练出的logistic分类器进行文本情感分类。
地址 410073 湖南省长沙市开福区德雅路109号国防科学技术大学