发明名称 |
一种文本分类的方法及系统 |
摘要 |
本申请公开了一种文本分类的方法,用于实现文本的文类,并提高分类的准确度和简化过程。所述方法包括:对获得的文本内容进行分词,得到多个词汇;确定得到的多个词汇在向量空间群的第一级向量空间中的词汇向量和;其中,向量空间由树形类目结构中非叶子类目的直接子类目构成,向量空间群由所有向量空间组成,第一级向量空间由树形类目结构中最顶层类目构成,词汇向量包括词汇在向量空间中各类目下的词频向量;将文本分入词汇向量和与第一级向量空间的各类目的距离中最短距离对应的类目下。本申请还公开了用于实现所述方法的系统。 |
申请公布号 |
CN102141978A |
申请公布日期 |
2011.08.03 |
申请号 |
CN201010111365.3 |
申请日期 |
2010.02.02 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
孙翔 |
分类号 |
G06F17/21(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/21(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
郭润湘 |
主权项 |
一种文本分类的方法,其特征在于,包括以下步骤:对获得的文本内容进行分词,得到多个词汇;确定得到的多个词汇在向量空间群的第一级向量空间中的词汇向量和;其中,向量空间由树形类目结构中非叶子类目的直接子类目构成,向量空间群由所有向量空间组成,第一级向量空间由树形类目结构中最顶层类目构成;将文本分入词汇向量和与第一级向量空间的各类目向量的距离中最短距离对应的类目下。 |
地址 |
英属开曼群岛大开曼岛资本大厦一座四层847号邮箱 |