发明名称 |
一种基于改进的KNN文本分类方法 |
摘要 |
本发明提供了一种基于改进的KNN文本分类方法,首先对训练文本进行预处理并计算每个训练样本的特征向量,构建训练集的特征向量空间模型;然后定义密度和距离,将整个样本空间按类型定义为多个球形区和离群点,并存储为训练集库;在进行测试时,首先判断待测文本是否落入某个球形区,根据对应标号判断其类别,否则,离群点和每个球形的中心点作为训练集库,调用KNN算法,判断待测试文本的类别。本发明提供的方法在兼顾分类速度、分类准确度以及对数据倾斜敏感度的同时,能够较好的应用于非球形分布的分类问题,尤其适合具有高维特征向量,分布不规则特征的文本分类问题。 |
申请公布号 |
CN104408095A |
申请公布日期 |
2015.03.11 |
申请号 |
CN201410650756.0 |
申请日期 |
2014.11.15 |
申请人 |
北京广利核系统工程有限公司;中国广核集团有限公司 |
发明人 |
冯素梅;赵云飞;刘建龙;张亚栋;刘邦信;周小波;程建明 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京元中知识产权代理有限责任公司 11223 |
代理人 |
王明霞 |
主权项 |
一种基于改进的KNN文本分类方法,其特征在于: S1,根据每个训练样本的特征向量,构建特征向量空间模型,并存储为训练集库; 采用特征向量空间模型VSM,对所述训练样本进行预处理,并提取特征词;根据训练样本的特征词,计算每个训练样本的特征向量,构建训练集的特征向量空间模型; 所述特征向量空间模型按照文本类型划分为至少一个球形区和至少一个离群点; 所述训练集库包括:每个所述球形区的中心向量、半径、类型和每个离群点的特征向量、类型; S2,当需要对新文本进行分类时, 首先,根据所述训练样本中提取的特征词在所述新文本中出现的情况,采用向量空间模型,计算所述新文本的特征向量; 然后,判断所述新文本的特征向量是否落入所述训练集库的某个球形区,如果“是”取得所述球形区对应的类型,否则,根据所述训练集库中存储的所有离群点和所有球形区的中心点,采用KNN算法判断所述新文本的类型。 |
地址 |
100094 北京市海淀区永丰路5号院5号楼 |