发明名称 一种计算机中文文本分类方法
摘要 本发明提出了一种计算机中文文本分类方法,包括以下步骤:使用N‑gram方法处理中文文本:使用N‑gram的方法把中文文本的表示为一个由一组特征组成的特征向量;使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;利用L1‑正则化逻辑回归分类器模型为中文文本分类。本发明对现有的基于分词的中文文本分类方法进行改善和提高,能够避免分词对分类精度产生的不良影响。通过使用N‑gram的形式来表达文本,可以很好地避免上述的两方面问题。同时L1‑正则化逻辑回归分类器可以很好地解决N‑gram带来的数据稀疏性问题,从而提高文本分类的精度。
申请公布号 CN103020167B 申请公布日期 2016.09.28
申请号 CN201210489136.4 申请日期 2012.11.26
申请人 南京大学 发明人 戴新宇;付强;陈家骏;黄书剑;张建兵
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 江苏圣典律师事务所 32237 代理人 胡建华
主权项 一种计算机中文文本分类方法,其特征在于,包括以下步骤:步骤一,使用N‑gram方法处理中文文本:使用N‑gram的方法把中文文本表示为一个由一组特征组成的特征向量;步骤二,使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;步骤三,利用L1‑正则化逻辑回归分类器模型为中文文本分类;步骤一包括以下步骤:对于中文文本d=c<sub>1</sub>,c<sub>2</sub>,…c<sub>j</sub>…,c<sub>k</sub>,其中c<sub>j</sub>为中文文本d中的第j个字,j=1,2,…k,k表示中文文本d的总字数,用N‑gram的方法把中文文本d表示为一个由一组特征组成的特征向量,表示为:(c<sub>1</sub>,c<sub>2</sub>,...,c<sub>k</sub>,c<sub>1</sub>c<sub>2</sub>,c<sub>2</sub>c<sub>3</sub>,...,c<sub>k‑1</sub>c<sub>k</sub>,...,c<sub>1</sub>c<sub>2</sub>...c<sub>n</sub>,c<sub>2</sub>c<sub>3</sub>...c<sub>n+1</sub>,...,c<sub>k‑n+1</sub>c<sub>k‑n+2</sub>...c<sub>k</sub>),其中,特征向量中的每一维表示一个特征s,参数n取值范围为1~k;步骤二包括以下步骤:根据词频逆向文件频率的计算公式计算特征向量中特征的权重:<img file="FDA0000968599810000011.GIF" wi="566" he="103" />其中n<sub>i,j</sub>是第i个特征s<sub>i</sub>在第j个中文文本d<sub>j</sub>中出现的次数,|D|表示中文文本的总个数,w<sub>ij</sub>是第i个特征在第j个中文文本中的权重;根据每一个中文文本的所有特征的权重,把一个中文文本d<sub>j</sub>表示成如下向量形式:x<sub>j</sub>=(w<sub>1</sub><sub>,</sub><sub>j</sub>,w<sub>2</sub><sub>,</sub><sub>j</sub>,...,w<sub>m</sub><sub>,</sub><sub>j</sub>),m表示训练数据集中所有中文文本的特征总数;其特征在于,步骤三包括以下步骤:根据L1‑正则化逻辑回归分类器的目标函数:<img file="FDA0000968599810000012.GIF" wi="797" he="87" />其中β是学习的参数,K是训练数据集中作为训练样例的中文文本的总数,C是调 节惩罚项和损失函数之间关系的常数,y<sub>i</sub>是中文文本的类标,x<sub>i</sub>是中文文本的向量形式;根据中文文本训练样例得到一组分类器模型y=β<sup>T</sup>x;x为中文文本的向量形式;步骤三后包括以下步骤:对于一个输入中文文本d,根据步骤一和步骤二转化为向量形式x后,根据分类器模型y=β<sup>T</sup>x判断中文文本d的类别;如果y&gt;0,则为正类;如果y&lt;0,则为负类。
地址 210093 江苏省南京市栖霞区仙林大道163号南京大学