发明名称 文本分类方法及服务器
摘要 本申请涉及一种文本分类方法,首先对于获取到的待分类文本进行预处理。从而提取出其中的文本特征词,再根据文本特征词,采用通常的快速分类组件对所述待分类文本进行初步分类,以获取候选类别;之后,根据所述文本特征词,进行筛选,筛选出包括与所述文本特征词相似的文本内容对应的文本内容的集合,并在集合中,除去所述候选类别之外的类别对应的文本内容,最后根据所述文本特征词与最终的集合中的每条样本文本内容的相似度,确定所述待分类文本的目标类别。通过上述的方案,能够大量采用减少KNN算法对文本进行分类时所需要遍历的文本条目,降低计算复杂度和计算量,提高文本文类的效率。
申请公布号 CN105095223A 申请公布日期 2015.11.25
申请号 CN201410171389.6 申请日期 2014.04.25
申请人 阿里巴巴集团控股有限公司 发明人 焦盼盼
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京亿腾知识产权代理事务所 11309 代理人 戴燕
主权项 一种文本分类方法,其特征在于,所述方法包括:对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本的一定个数候选类别;根据所述文本特征词在预存储的倒排索引表中,确定第一文本内容标识集合,所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识;根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱