主权项 |
一种计算机中文文本分类方法,其特征在于,包括以下步骤:步骤一,使用N‑gram方法处理中文文本:使用N‑gram的方法把中文文本表示为一个由一组特征组成的特征向量;步骤二,使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;步骤三,利用L1‑正则化逻辑回归分类器模型为中文文本分类;步骤一包括以下步骤:对于中文文本d=c<sub>1</sub>,c<sub>2</sub>,…c<sub>j</sub>…,c<sub>k</sub>,其中c<sub>j</sub>为中文文本d中的第j个字,j=1,2,…k,k表示中文文本d的总字数,用N‑gram的方法把中文文本d表示为一个由一组特征组成的特征向量,表示为:(c<sub>1</sub>,c<sub>2</sub>,...,c<sub>k</sub>,c<sub>1</sub>c<sub>2</sub>,c<sub>2</sub>c<sub>3</sub>,...,c<sub>k‑1</sub>c<sub>k</sub>,...,c<sub>1</sub>c<sub>2</sub>...c<sub>n</sub>,c<sub>2</sub>c<sub>3</sub>...c<sub>n+1</sub>,...,c<sub>k‑n+1</sub>c<sub>k‑n+2</sub>...c<sub>k</sub>),其中,特征向量中的每一维表示一个特征s,参数n取值范围为1~k;步骤二包括以下步骤:根据词频逆向文件频率的计算公式计算特征向量中特征的权重:<img file="FDA0000968599810000011.GIF" wi="566" he="103" />其中n<sub>i,j</sub>是第i个特征s<sub>i</sub>在第j个中文文本d<sub>j</sub>中出现的次数,|D|表示中文文本的总个数,w<sub>ij</sub>是第i个特征在第j个中文文本中的权重;根据每一个中文文本的所有特征的权重,把一个中文文本d<sub>j</sub>表示成如下向量形式:x<sub>j</sub>=(w<sub>1</sub><sub>,</sub><sub>j</sub>,w<sub>2</sub><sub>,</sub><sub>j</sub>,...,w<sub>m</sub><sub>,</sub><sub>j</sub>),m表示训练数据集中所有中文文本的特征总数;其特征在于,步骤三包括以下步骤:根据L1‑正则化逻辑回归分类器的目标函数:<img file="FDA0000968599810000012.GIF" wi="797" he="87" />其中β是学习的参数,K是训练数据集中作为训练样例的中文文本的总数,C是调 节惩罚项和损失函数之间关系的常数,y<sub>i</sub>是中文文本的类标,x<sub>i</sub>是中文文本的向量形式;根据中文文本训练样例得到一组分类器模型y=β<sup>T</sup>x;x为中文文本的向量形式;步骤三后包括以下步骤:对于一个输入中文文本d,根据步骤一和步骤二转化为向量形式x后,根据分类器模型y=β<sup>T</sup>x判断中文文本d的类别;如果y>0,则为正类;如果y<0,则为负类。 |