基于Base64编码的中文文本分类方法,申请号CN201110024335.3-传众专利搜索

发明名称	基于Base64编码的中文文本分类方法
摘要	本发明公开了一种基于Base64编码的中文文本预处理方法。其步骤如下：1）使用Base64编码预处理中文文本，将文本转化为字符串文本；2）使用4-gram对转换后的字符串文本分词，提取文本特征项；3）利用IG筛选文本特征项，生成特征空间；4）统计文本特征项的词频，使用词频表示特征项的权重，将中文文本表示成特征向量；5）利用LIBLINEAR工具箱训练SVM分类器，得到SVM分类模型，对中文文本进行分类，判断文本所属的类别。本发明使用Base64编码中文文本、4-gram提取文本特征项，解决了中文文本分类在进行中文分词时引起的耗时、分词准确率不高的问题；同时，使用IG进行特征选择，采用词频表示文本特征可以有效提高中文文本分类的准确率和效率。
申请公布号	CN102081667A	申请公布日期	2011.06.01
申请号	CN201110024335.3	申请日期	2011.01.23
申请人	浙江大学	发明人	徐从富;陈雅芳;张志华
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	杭州求是专利事务所有限公司 33200	代理人	张法高
主权项	一种基于Base64编码的中文文本分类方法，其特征在于它的步骤如下：1）利用Base64编码中文文本，将中文文本转化为由英文字母和数字组成的字符串文本；2）使用4‑gram切分编码后的字符串文本，生成4‑gram特征项；3）统计字符串文本中4‑gram特征项的频率信息，根据IG的重要程度选择4‑gram特征项，生成特征空间；4）统计4‑gram特征项的词频，根据步骤3）中生成的特征空间，使用词频权重表示特征，将中文文本表示成特征向量，重复步骤1）～步骤4）得到特征向量集；5）输入特征向量集，利用LIBLINEAR工具箱训练SVM分类器，对中文文本进行分类，判断文本所属的类别。
地址	310027 浙江省杭州市西湖区浙大路38号