发明名称 一种与内容无关的垃圾邮件过滤方法
摘要 本发明提供了一种与内容无关的垃圾邮件过滤方法,包括如下特征提取、特征量化和机器学分类三个步骤,其中特征量化包括如下步骤:1)对于邮件样本的标题,去除标点,特殊符号以及停用词;2)经分词转化为由单词组成的特征向量;3)将步骤2)中特征向量的每一个元素进行统计,并分别对照垃圾标题特征集和合法标题特征集进行统计,查找各个元素分别在这两个集中出现的频率次数,并将结果分为四种情况,分别得到基本概率指派函数;4)将步骤3)的基本概率指派函数根据证据理论的D-S组合规则进行融合,得到最终的基本概率指派函数;5)将最终的基本概率指派函数经过赌博概率转化作为邮件标题特征量化的结果。
申请公布号 CN105337842A 申请公布日期 2016.02.17
申请号 CN201410405970.X 申请日期 2014.08.14
申请人 广东外语外贸大学;胡勇;邓勇 发明人 胡勇;张晨威;张智军;邓勇;刘梅;张享周;陈诗峰;谢康;肖静华;姜灵敏;曾驭然;张振华;丘心颖;陈蔚琦;刘康;苏丽君;郭策
分类号 H04L12/58(2006.01)I 主分类号 H04L12/58(2006.01)I
代理机构 代理人
主权项 一种与内容无关的垃圾邮件过滤方法,包含如下步骤:(1)对待过滤邮件样本的邮件信头和邮件标题进行特征提取,(2)对步骤(1)所得的特征分别进行特征量化,(3)将步骤(2)所得结果输入基于机器学习的分类器进行分类,根据分类结果判断待过滤邮件样本是否为垃圾邮件;其特征在于:所述步骤(2)具体包括如下步骤:a.对邮件标题去除标点符号、特殊符号、停用词后,经分词转化为由单词组成的特征向量G;b.对所述特征向量G中的每一个元素进行统计,并分别对照垃圾标题特征集和合法标题特征集进行统计,查找每一个元素分别在这两个集中出现的频率次数,并将结果分为四种情况,分别得到基本概率指派函数;c.将所述基本概率指派函数根据证据理论的D‑S组合规则进行融合,得到最终的基本概率指派函数;d.将所述最终的基本概率指派函数经过赌博概率转化作为邮件标题特征量化的结果。
地址 510420 广东省广州市白云大道北2号