一种垃圾邮件过滤方法,申请号CN201110450352.3-传众专利搜索

发明名称	一种垃圾邮件过滤方法
摘要	本发明公开了一种垃圾邮件过滤方法，包括：从待过滤邮件中提取中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语；通过统计学样本，获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；统计每个重要性位置区间编号上分布的词语的个数，并转换成一维数组，获得所述中文文本的特征向量；将所述特征向量输入支持向量机模型，获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。本发明实施例能够准确地对邮件进行分类，提高垃圾邮件的识别准确率。
申请公布号	CN103186845A	申请公布日期	2013.07.03
申请号	CN201110450352.3	申请日期	2011.12.29
申请人	盈世信息科技（北京）有限公司	发明人	林延中;潘庆峰
分类号	G06Q10/10(2012.01)I;G06F17/27(2006.01)I;H04L12/58(2006.01)I	主分类号	G06Q10/10(2012.01)I
代理机构	广州三环专利代理有限公司 44202	代理人	颜希文
主权项	一种垃圾邮件过滤方法，其特征在于，包括：S11、从待过滤邮件中提取中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语；S12、通过统计已知分类的邮件样本，获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；S13、统计每个重要性位置区间编号上分布的词语的个数，并转换成一维数组，获得所述中文文本的特征向量；S14、将所述特征向量输入支持向量机模型，获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。
地址	100080 北京市海淀区海淀南路19号时代网络大厦8003室