发明名称 |
一种识别垃圾文本的方法和系统 |
摘要 |
本发明公开了一种识别垃圾文本的方法和系统,该方法包括:提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征,并为每个垃圾特征赋予垃圾权重,由所有赋予了垃圾权重的垃圾特征组成垃圾特征库;将待处理文本与垃圾特征库中的垃圾特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。该系统包括垃圾特征库和垃圾文本识别装置;垃圾特征库,存储有赋予了垃圾权重的垃圾特征;垃圾文本识别装置,接收待处理文本,将待处理文本与垃圾特征库中的垃圾特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。本发明能够提高识别垃圾文本的准确性。 |
申请公布号 |
CN101477544A |
申请公布日期 |
2009.07.08 |
申请号 |
CN200910001577.3 |
申请日期 |
2009.01.12 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
刘怀军;方高林 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京德琦知识产权代理有限公司 |
代理人 |
谢安昆;宋志强 |
主权项 |
1、一种识别垃圾文本的方法,其特征在于,该方法包括:提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征,并为每个垃圾特征赋予垃圾权重,由所有赋予了垃圾权重的垃圾特征组成垃圾特征库;将待处理文本与垃圾特征库中的垃圾特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。 |
地址 |
518044广东省深圳市福田区振兴路赛格科技园2栋东403室 |