发明名称 |
一种文本分类校正方法及装置 |
摘要 |
本发明公开了一种文本分类校正方法及装置,包括:获取各文本类别包括的文本,组成文本集合;对该文本集合中的文本进行特征词提取处理,得到特征词语;根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重;将该文本包括的各特征词语在该文本中的出现次数与在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;从该待校正文本在除其所属类别以外的其他类别中,将该待校正文本的分类校正值最大的类别,确定为该待校正文本的新的类别。 |
申请公布号 |
CN104915356A |
申请公布日期 |
2015.09.16 |
申请号 |
CN201410093054.7 |
申请日期 |
2014.03.13 |
申请人 |
中国移动通信集团上海有限公司 |
发明人 |
夏文菁;王志卿 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
黄志华 |
主权项 |
一种文本分类校正方法,其特征在于,包括:获取各文本类别包括的文本,组成文本集合;对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语;针对所述文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;针对所述文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;从所述待校正文本在除其所属类别以外的其他类别中,将所述待校正文本的分类校正值最大的类别,确定为所述待校正文本的新的类别。 |
地址 |
200060 上海市普陀区长寿路200号 |