发明名称 基于Base64编码的中文文本分类方法
摘要 本发明公开了一种基于Base64编码的中文文本预处理方法。其步骤如下:1)使用Base64编码预处理中文文本,将文本转化为字符串文本;2)使用4-gram对转换后的字符串文本分词,提取文本特征项;3)利用IG筛选文本特征项,生成特征空间;4)统计文本特征项的词频,使用词频表示特征项的权重,将中文文本表示成特征向量;5)利用LIBLINEAR工具箱训练SVM分类器,得到SVM分类模型,对中文文本进行分类,判断文本所属的类别。本发明使用Base64编码中文文本、4-gram提取文本特征项,解决了中文文本分类在进行中文分词时引起的耗时、分词准确率不高的问题;同时,使用IG进行特征选择,采用词频表示文本特征可以有效提高中文文本分类的准确率和效率。
申请公布号 CN102081667A 申请公布日期 2011.06.01
申请号 CN201110024335.3 申请日期 2011.01.23
申请人 浙江大学 发明人 徐从富;陈雅芳;张志华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高
主权项 一种基于Base64编码的中文文本分类方法,其特征在于它的步骤如下:1)利用Base64编码中文文本,将中文文本转化为由英文字母和数字组成的字符串文本;2)使用4‑gram切分编码后的字符串文本,生成4‑gram特征项;3)统计字符串文本中4‑gram特征项的频率信息,根据IG的重要程度选择4‑gram特征项,生成特征空间;4)统计4‑gram特征项的词频,根据步骤3)中生成的特征空间,使用词频权重表示特征,将中文文本表示成特征向量,重复步骤1)~步骤4)得到特征向量集;5)输入特征向量集,利用LIBLINEAR工具箱训练SVM分类器,对中文文本进行分类,判断文本所属的类别。
地址 310027 浙江省杭州市西湖区浙大路38号