发明名称 |
一种垃圾邮件过滤方法 |
摘要 |
本发明公开了一种垃圾邮件过滤方法,包括:从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;通过统计学样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。本发明实施例能够准确地对邮件进行分类,提高垃圾邮件的识别准确率。 |
申请公布号 |
CN103186845A |
申请公布日期 |
2013.07.03 |
申请号 |
CN201110450352.3 |
申请日期 |
2011.12.29 |
申请人 |
盈世信息科技(北京)有限公司 |
发明人 |
林延中;潘庆峰 |
分类号 |
G06Q10/10(2012.01)I;G06F17/27(2006.01)I;H04L12/58(2006.01)I |
主分类号 |
G06Q10/10(2012.01)I |
代理机构 |
广州三环专利代理有限公司 44202 |
代理人 |
颜希文 |
主权项 |
一种垃圾邮件过滤方法,其特征在于,包括:S11、从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;S12、通过统计已知分类的邮件样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;S13、统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;S14、将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。 |
地址 |
100080 北京市海淀区海淀南路19号时代网络大厦8003室 |