发明名称 一种垃圾邮件过滤方法
摘要 本发明公开了一种垃圾邮件过滤方法,包括:从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;通过统计学样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。本发明实施例能够准确地对邮件进行分类,提高垃圾邮件的识别准确率。
申请公布号 CN103186845B 申请公布日期 2016.06.08
申请号 CN201110450352.3 申请日期 2011.12.29
申请人 盈世信息科技(北京)有限公司 发明人 林延中;潘庆峰
分类号 H04L12/58(2006.01)I 主分类号 H04L12/58(2006.01)I
代理机构 广州三环专利代理有限公司 44202 代理人 颜希文
主权项 一种垃圾邮件过滤方法,其特征在于,包括:S11、从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;S12、通过统计已知分类的邮件样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;其中具体包括:收集已知分类的邮件样本,所述邮件样本包括正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本;从所述邮件样本中提取分词样本,对每一个分词样本的区分邮件类型的能力进行排序,形成正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表;每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置区间编号,所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性;将所述正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中的分词样本及其重要性位置区间编号记录到数据库中;从所述待过滤邮件的中文文本中分离出词语后,根据数据库中记录的每个分词样本在不同邮件类型中的重要性位置区间编号,来确定所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;S13、统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;S14、将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。
地址 100080 北京市海淀区海淀南路19号时代网络大厦8003室