一种计算机中文文本分类方法,申请号CN201210489136.4-传众专利搜索

发明名称	一种计算机中文文本分类方法
摘要	本发明提出了一种计算机中文文本分类方法，包括以下步骤：使用N‑gram方法处理中文文本：使用N‑gram的方法把中文文本的表示为一个由一组特征组成的特征向量；使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重；利用L1‑正则化逻辑回归分类器模型为中文文本分类。本发明对现有的基于分词的中文文本分类方法进行改善和提高，能够避免分词对分类精度产生的不良影响。通过使用N‑gram的形式来表达文本，可以很好地避免上述的两方面问题。同时L1‑正则化逻辑回归分类器可以很好地解决N‑gram带来的数据稀疏性问题，从而提高文本分类的精度。
申请公布号	CN103020167B	申请公布日期	2016.09.28
申请号	CN201210489136.4	申请日期	2012.11.26
申请人	南京大学	发明人	戴新宇;付强;陈家骏;黄书剑;张建兵
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	江苏圣典律师事务所 32237	代理人	胡建华
主权项	一种计算机中文文本分类方法，其特征在于，包括以下步骤：步骤一，使用N‑gram方法处理中文文本：使用N‑gram的方法把中文文本表示为一个由一组特征组成的特征向量；步骤二，使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重；步骤三，利用L1‑正则化逻辑回归分类器模型为中文文本分类；步骤一包括以下步骤：对于中文文本d＝c<sub>1</sub>,c<sub>2</sub>,…c<sub>j</sub>…,c<sub>k</sub>，其中c<sub>j</sub>为中文文本d中的第j个字，j＝1,2,…k，k表示中文文本d的总字数，用N‑gram的方法把中文文本d表示为一个由一组特征组成的特征向量，表示为：(c<sub>1</sub>，c<sub>2</sub>，...，c<sub>k</sub>，c<sub>1</sub>c<sub>2</sub>，c<sub>2</sub>c<sub>3</sub>，...，c<sub>k‑1</sub>c<sub>k</sub>，...，c<sub>1</sub>c<sub>2</sub>...c<sub>n</sub>，c<sub>2</sub>c<sub>3</sub>...c<sub>n+1</sub>，...，c<sub>k‑n+1</sub>c<sub>k‑n+2</sub>...c<sub>k</sub>)，其中，特征向量中的每一维表示一个特征s，参数n取值范围为1～k；步骤二包括以下步骤：根据词频逆向文件频率的计算公式计算特征向量中特征的权重：<img file="FDA0000968599810000011.GIF" wi="566" he="103" />其中n<sub>i,j</sub>是第i个特征s<sub>i</sub>在第j个中文文本d<sub>j</sub>中出现的次数，\|D\|表示中文文本的总个数，w<sub>ij</sub>是第i个特征在第j个中文文本中的权重；根据每一个中文文本的所有特征的权重，把一个中文文本d<sub>j</sub>表示成如下向量形式：x<sub>j</sub>＝(w<sub>1</sub><sub>，</sub><sub>j</sub>，w<sub>2</sub><sub>，</sub><sub>j</sub>，...，w<sub>m</sub><sub>，</sub><sub>j</sub>)，m表示训练数据集中所有中文文本的特征总数；其特征在于，步骤三包括以下步骤：根据L1‑正则化逻辑回归分类器的目标函数：<img file="FDA0000968599810000012.GIF" wi="797" he="87" />其中β是学习的参数，K是训练数据集中作为训练样例的中文文本的总数，C是调节惩罚项和损失函数之间关系的常数，y<sub>i</sub>是中文文本的类标，x<sub>i</sub>是中文文本的向量形式；根据中文文本训练样例得到一组分类器模型y＝β<sup>T</sup>x；x为中文文本的向量形式；步骤三后包括以下步骤：对于一个输入中文文本d，根据步骤一和步骤二转化为向量形式x后，根据分类器模型y＝β<sup>T</sup>x判断中文文本d的类别；如果y>0，则为正类；如果y<0，则为负类。
地址	210093 江苏省南京市栖霞区仙林大道163号南京大学