发明名称 基于修正的K近邻文本分类方法
摘要 本发明公开了一种基于修正的K近邻文本分类方法,包括文本预处理,首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示;文本特征选择,然后对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征;最后利用基于偏差的K近邻文本分类算法构建分类器进行分类,得到分类结果。该方法分类结果准确。
申请公布号 CN102033949A 申请公布日期 2011.04.27
申请号 CN201010601777.5 申请日期 2010.12.23
申请人 南京财经大学 发明人 曹杰;伍之昂;王有权;方仓健
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京汇盛专利商标事务所(普通合伙) 32238 代理人 陈扬
主权项 一种基于修正的K近邻文本分类方法,其特征在于:该方法首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示,然后对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征,最后利用基于偏差的K近邻文本分类算法构建分类器,得到分类结果,具体步骤如下:1) 文本预处理;搜集文本并进行预处理,包括处理文本乱码及非文本内容分词并去停用词,删除非相关文本;2)文本特征选择,应该选择尽可能少而准确且与文档主题概念密切相关的文档特征进行文本分类;用文本预处理的结果组成一个文本向量来表征文本,然后根据规则从高维的特征空间中选取对文档分类影响最大的特征子集来提高文本分类的时间和空间效率;3) 文本分类;由于K近邻文本分类方法存在当样本分布密度不不均匀时K近邻存在倾向于大类的分类决策,采用基于修正的K近邻文本分类方法进行分类。
地址 210003 江苏省南京市铁路北街128号
您可能感兴趣的专利