发明名称 |
一种文本分类方法和装置 |
摘要 |
本申请实施例公开了一种文本分类方法和装置。将待分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合,其中,待分类文档词汇组集合中的各词汇组包括至少两个词汇;统计所述待分类文档词汇组集合中各词汇组的词频;从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量;将待分类文档中各词汇组的词频作为词汇组的向量数,对上述提取的各词汇组的所有向量求和,得到总分类向量;对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。根据本申请实施例,可以提高分类结果的准确性。 |
申请公布号 |
CN102411592B |
申请公布日期 |
2013.08.07 |
申请号 |
CN201010292461.2 |
申请日期 |
2010.09.21 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
孙翔 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
逯长明;王宝筠 |
主权项 |
一种文本分类方法,其特征在于,包括:将待分类文档进行分词,对分词得到的各词汇进行组合,得到待分类文档词汇组集合,其中,待分类文档词汇组集合中的各词汇组包括至少两个词汇;统计所述待分类文档词汇组集合中各词汇组的词频;从预先获得的词汇组向量中提取所述待分类文档词汇组集合中的各词汇组的向量,其中,所述预先获得词汇组向量是预先将具有确定类别的样本文档进行分词,对分词得到的各词汇进行组合,得到样本文档词汇组集合,统计所述样本文档词汇组集合中各词汇组的词频,将同一词汇组在各样本文档类别中的词频组成词频向量,对所述词频向量进行归一化处理,得到词汇组向量,其中,样本文档词汇组集合中各词汇组包括至少两个词汇;将待分类文档中各词汇组的词频作为权重值,对上述提取的各词汇组的所有向量加权求和,得到总分类向量;对所述总分类向量进行预置分类算法的处理,得到待分类文档的分类结果。 |
地址 |
英属开曼群岛大开曼岛资本大厦一座四层847号邮箱 |