发明名称 一种优化训练样本集的KNN文本分类方法
摘要 本发明公开了一种优化训练样本集的KNN文本分类方法,属于文本挖掘,自然语言处理等领域,解决传统KNN文本分类方法的效率和准确率低的问题。本发明在于对训练用文本数据和待分类文本数据进行文本预处理;将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。本发明能够更好的应用于文本信息挖掘系统。
申请公布号 CN104063472B 申请公布日期 2017.02.15
申请号 CN201410305607.0 申请日期 2014.06.30
申请人 电子科技大学 发明人 屈鸿;谌语;绍领;解修蕊;黄利伟
分类号 G06F17/30(2006.01)I;G06N3/02(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 成都华风专利事务所(普通合伙) 51223 代理人 徐丰
主权项 一种优化训练样本集的KNN文本分类方法,其特征在于,如下步骤:(1)对训练用文本数据和待分类文本数据进行文本预处理;(2)将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;(3)对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;(4)对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;使用经过优化样本集的KNN算法进行训练分类的步骤如下:(41)对训练用文本数据进行裁剪,得到裁剪样本文本数据训练集;得到裁剪样本文本数据训练集的步骤如下:(411)将训练用文本数据分为类内样本文本数据和边界样本文本数据;(412)裁剪类内样本文本数据;类内样本文本数据裁剪的步骤如下:(4121)计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量<img file="FDA0001149528310000011.GIF" wi="67" he="69" />距离类中心向量最远的向量<img file="FDA0001149528310000012.GIF" wi="35" he="62" />和训练用文本数据中的每一个已知类别样本文本数据的平均密度<img file="FDA0001149528310000013.GIF" wi="67" he="70" />(4122)计算出每次的增量<img file="FDA0001149528310000014.GIF" wi="312" he="95" />n为初始设置同类别下文本数据分割增量区间个数;(4123)如果<img file="FDA0001149528310000015.GIF" wi="210" he="63" />计算类间增量小区域<img file="FDA0001149528310000016.GIF" wi="227" he="69" />内的训练用文本数据中的每一个已知类别样本文本数据下增量内的样本文本数据的平均密度ρ<sub>i</sub>和标准密度<img file="FDA0001149528310000017.GIF" wi="99" he="47" /><img file="FDA0001149528310000018.GIF" wi="372" he="71" />其中Ψ是代表一个初始设置裁剪样本空间比例值的参数,当离类中心越近时取值越大;(4124)判断<img file="FDA0001149528310000019.GIF" wi="158" he="54" />是否成立,成立则裁剪小区域内邻域最多的样本,并转到步骤(4125),否则<img file="FDA00011495283100000110.GIF" wi="206" he="71" />计算下一个增量空间并转到步骤(4123);(4125)依次遍历完所有增量空间;(413)裁剪边界样本文本数据;(42)采用余弦定理计算待分类文本数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度;(43)选取与待分类文本数据之间相似度最高的K个已知类别样本文本数据;(44)根据K个已知类别样本文本数据判断待分类文本数据的类别;(5)将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。
地址 611731 四川省成都市高新区(西区)西源大道2006号