发明名称 |
文本分类方法和装置及文本分类的特征处理方法和装置 |
摘要 |
本申请公开了一种文本分类方法和装置及文本分类的特征处理方法和装置。该文本分类的特征处理方法包括:获取用于文本分类的学资料的特征集合;计算每个特征词在所有分类类别中的信息增益值之和;以及提取特征集合中预定数量的特征词作为用于文本分类的学特征,以使用于文本分类的学特征为特征集合中除去停用词后的剩余特征词中的部分特征词,其中,提取到的特征词对应的信息增益值之和大于未提取的特征词对应的信息增益值之和。应用本申请方案,在文本分类的特征提取时,能够有效地避免将噪声特征纳入机器学流程,提高了文本分类的精度,同时极大地缩减了特征库规模,降低了内存占用。 |
申请公布号 |
CN103246686A |
申请公布日期 |
2013.08.14 |
申请号 |
CN201210033208.4 |
申请日期 |
2012.02.14 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
许文奇 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京康信知识产权代理有限责任公司 11240 |
代理人 |
吴贵明;余刚 |
主权项 |
一种文本分类的特征处理方法,其特征在于,包括:获取用于文本分类的学习资料的特征集合,其中,所述特征集合包括多个特征词;计算每个特征词在所有分类类别中的信息增益值之和;以及提取所述特征集合中预定数量的特征词作为用于文本分类的学习特征,以使所述用于文本分类的学习特征为所述特征集合中除去停用词后的剩余特征词中的部分特征词,其中,提取到的特征词对应的信息增益值之和大于未提取的特征词对应的信息增益值之和。 |
地址 |
英属开曼群岛大开曼资本大厦一座四层847号邮箱 |