发明名称 短文本垃圾识别以及建模方法和装置
摘要 本发明公开了一种短文本垃圾识别以及建模方法和装置,所述方法包括:对待判定短文本进行分词得到词语集合,并对所述待判定短文本进行垃圾特征分析得到分析信息;将所述待判定短文本的分析信息以及词语集合中每个词语分别与预先确定的特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成所述待判定短文本的词语特征向量;根据所述待判定短文本的词语特征向量,以及分类模型,确定所述待判定短文本是否为垃圾文本;其中分类模型是结合训练集中的样本数,选择合适的分类算法预先训练出的。由于采用扩充了分析信息的特征值的词语特征向量进行垃圾识别,从而提高了识别垃圾文本的识别准确率。
申请公布号 CN103336766A 申请公布日期 2013.10.02
申请号 CN201310278012.6 申请日期 2013.07.04
申请人 微梦创科网络科技(中国)有限公司 发明人 姜贵彬
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京市京大律师事务所 11321 代理人 张璐;方晓明
主权项 一种短文本垃圾识别方法,其特征在于,包括: 对待判定短文本进行分词得到词语集合,并对所述待判定短文本进行垃圾特征分析得到分析信息; 将所述待判定短文本的分析信息以及词语集合中每个词语分别与预先确定的特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成所述待判定短文本的词语特征向量; 根据所述待判定短文本的词语特征向量,以及预先训练出的分类模型,确定所述待判定短文本是否为垃圾文本。
地址 100080 北京市海淀区海淀北二街10号701室