发明名称 一种计算机文本分类系统
摘要 本发明公开了一种计算机文本分类系统,包括文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块。本发明以信息论为基础,对分类的过程进一步细化,明确了分类系统中各个模决的功能,确保分类的效率以及分类处理率,加入了效果完善模块,提高分类处理的正确率。
申请公布号 CN106570076A 申请公布日期 2017.04.19
申请号 CN201610905152.5 申请日期 2016.10.11
申请人 深圳大学 发明人 何正娣
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种计算机文本分类系统,其特征在于,包括文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块;计算机中的计算部分首先对所述文本预处理模块主要对输入的文本进行预处理,首先对所述输入的文本利用分词软件将文本断开,将标点符号、空格去除,分割成词语集合,接着对所述词语集合进行进一步的处理,将无意义的词语去除,形成精简词语集合;所述文本特征提取模块的主要根据是特征选择方法,首先从所述精简词语集合中产生出特征词语子集,产生所述特征词语子集的过程是不停搜索的过程,搜索的算法采用分支限界搜索算法,然后用基于遗传算法的评价函数对产生的所述特征词语子集进行评价,得到评价值,并将所述评价值与停止的阈值进行比较,若所述评价值比所述停止的阈值大则停止搜索,否则就继续搜索,经过评价能过滤产生新的特征词语子集,所述新的特征词语子集由特征词语组成,利用互信息法计算所述特征词语出现的频率,综合所述特征词语出现的频率,得到所述特征词语与所述特征词语出现的频率之间的映射表;所述文本训练处理模块对所述特征词语与所述特征词语出现的频率之间的映射表进行处理,随机选取其他文本,计算逆文本频率指数,将计算后的逆文本频率指数作为输入,依靠训练分类器计算所述特征词语的权重值,从而得到词语权重矩阵;所述分类处理模块根据所述词语权重矩阵,利用SVM分类算法设置分类的类别区间,将所述精简词语集合中的词语进行分类,得到词语分类向量集合,一个类别的词语属于所述词语分类向量集合中的同一个向量;所述文本种类标记模块用于对所述词语分类向量集合进行标记,建立词语的类别标记表,所述词语的类别标记表中用特殊的符号值作为词语类别的标记值,将所述词语类别的标记值加入词语分类向量集合得到标记过的词语分类向量集合;所述效果完善模块对所述标记过的词语分类向量集合进行错误统计,统计的过程为一个随机的样本抽取过程,首先将所述标记过的词语分类向量集合中的标记过的词语分类向量提取,并根据词语的分布律进行排序,排序在前30%的区域为重点抽取的区域,对抽取的样本的分类效果进行测试,并且利用冗余参数进行调整,若调整的频率过高,说明分类的效果不够好,重新回到所述文本特征提取模块,对所述阈值进行修改重新进行特征提取直到将所述调整的频率降到安全的范围内。
地址 518060 广东省深圳市南山区南海大道3688号深圳大学科技楼604室