发明名称 一种文本分类特征提取方法、分类方法及装置
摘要 本发明实施例公开了一种文本分类特征提取方法、分类方法及装置,其中,所述文本分类特征提取方法包括:获取训练集文本的特征词集合;根据特征词集合中各特征词与预置文本类别的相关度以及特征词的词长度,确定各特征词的特征评分值;记录特征评分值高于预设分数阈值的特征词,得到所述训练集文本的文本特征集合。采用本发明,可以在得到能够表达文本信息的特征词的情况下,有效地减少特征词的个数,从而方便在对文本进行分类时,减小分类运行时间,减小计算的时间和空间开销,节省计算成本。
申请公布号 CN103902570A 申请公布日期 2014.07.02
申请号 CN201210578378.0 申请日期 2012.12.27
申请人 腾讯科技(深圳)有限公司 发明人 李鑫;张延祥
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州三环专利代理有限公司 44202 代理人 郝传鑫;熊永强
主权项 一种文本分类特征提取方法,其特征在于,包括:获取训练集文本的特征词集合;根据特征词集合中各特征词与预置文本类别的相关度以及特征词的词长度,确定各特征词的特征评分值;记录特征评分值高于预设分数阈值的特征词,得到所述训练集文本的文本特征集合。
地址 518057 广东省深圳市福田区振兴路赛格科技园2栋东403室