发明名称 |
一种文本分类方法、装置及系统 |
摘要 |
本发明适用于互联网文本分类技术领域,提供了一种文本分类方法、装置及系统,所述方法包括:提取待分类文本的特征,所述特征包括所述待分类文本中所涉及的词性;根据所述待分类文本的特征对所述待分类文本进行分类,得到正常文本和垃圾文本。本发明将文本中每个词的词性作为特征来进行特征提取及分类,大大缩小了特征空间,并因此能够在分类器中选择相对复杂且精确的分类模型来对待分类文本进行分类,大大提高了分类准确性。 |
申请公布号 |
CN103246655A |
申请公布日期 |
2013.08.14 |
申请号 |
CN201210024371.4 |
申请日期 |
2012.02.03 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
何晓宁;勇凤伟 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳中一专利商标事务所 44237 |
代理人 |
张全文 |
主权项 |
一种文本分类方法,其特征在于,所述方法包括:提取待分类文本的特征,所述特征包括所述待分类文本中所涉及的词性;根据所述待分类文本的特征对所述待分类文本进行分类,得到正常文本和垃圾文本。 |
地址 |
518044 广东省深圳市福田区振兴路赛格科技园2栋东403室 |