发明名称 一种计算机文本情感分类方法
摘要 本发明提出了一种计算机文本情感分类方法,包括以下步骤:使用两种方法表示文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;使用图的方法把整个特征空间表示为一个有向无环图,图上的每一个节点为一个特征;用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入,利用图稀疏化逻辑回归分类器模型为文本分类。本发明对现有的基于词袋的文本表示方法进行改善和提高,能够避免词袋方法导致的文本结构信息丢失的问题。特征空间上建立的有向无环图可以很好地表示出文本的结构信息。同时,L1-正则化逻辑回归可以很好地选出关键特征,提高学效率。
申请公布号 CN103473380A 申请公布日期 2013.12.25
申请号 CN201310462797.2 申请日期 2013.09.30
申请人 南京大学 发明人 戴新宇;付强
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 江苏圣典律师事务所 32237 代理人 胡建华
主权项 一种计算机文本情感分类方法,其特征在于,包括以下步骤:步骤一,使用词袋方法处理计算机文本:使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量,每个计算机文本包括一个类标;步骤二,使用图的方法处理计算机文本:使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G,图上的每一个节点为一个特征;步骤三,使用L1‑正则化逻辑回归作为特征选择工具进行特征空间降维;步骤四,利用图稀疏化逻辑回归分类器模型为文本分类。
地址 210000 江苏省南京市汉口路22号南京大学