一种基于文本特征嵌入的中文短文本情感分类方法,申请号CN201610392495.6-传众专利搜索

发明名称	一种基于文本特征嵌入的中文短文本情感分类方法
摘要	本发明公开了一种基于文本特征嵌入的中文短文本情感分类方法，采用文本特征嵌入的方式进行特征提取，首先通过词嵌入将词表示为较短长度的向量，一方面降低了特征的维度，另一方面可以较好地描述词与词之间的相似关系；然后根据不同的词在文本中所处的位置对词向量进行加权，从而进行文本特征嵌入，得到较低维度的文本特征，在基础上进行中文短文本情感分类，从而提高中文短文本情感分类精度。另外，由于网络语言变化快，中文短文本的随意性强，本发明采用增量学的方式不断更新词向量，使其能够紧跟待训练文本的变化，以提高文本情感分类的精度。
申请公布号	CN106055673A	申请公布日期	2016.10.26
申请号	CN201610392495.6	申请日期	2016.06.06
申请人	中国人民解放军国防科学技术大学	发明人	张胜;李沛;程佳军;丁兆云;张鑫;王晖;沈大勇;陈科第;叶栋;乔凤才
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京轻创知识产权代理有限公司 11212	代理人	谈杰
主权项	一种基于文本特征嵌入的中文短文本情感分类方法，其特征在于，包含如下步骤：步骤1)采用Wiki中文所有数据进行初始化词向量训练；步骤2)以Wiki中文训练出的词向量为初始向量，采用分类相关数据集进行词向量优化训练；步骤3)采用步骤2)训练出的词向量，对分类训练集中文本进行特征嵌入；步骤4)以步骤3)得到的文本分布式特征向量为文本特征，采用logistic分类进行分类器训练；步骤5)采集需要进行情感分类的中文短文本；步骤6)对采集到的数据进行预处理，首先进行去重处理，然后对剩下的文本进行分词并去除停用词；步骤7)如需要更新词向量，以新采集到的数据为训练集，重复步骤2)至步骤4)，分别进行词向量、分类训练集文本向量和logistic分类器的更新训练；步骤8)采用上一次更新过程中步骤2)训练出的分布式词向量，对待分类文本进行特征嵌入；步骤9)以步骤8)中得到的文本向量为特征，采用上一次更新过程中步骤4)训练出的logistic分类器进行文本情感分类。
地址	410073 湖南省长沙市开福区德雅路109号国防科学技术大学