发明名称 |
基于支持向量机的垃圾邮件过滤方法 |
摘要 |
本发明公开了一种基于支持向量机的垃圾邮件过滤方法,其步骤如下:1)对邮件进行解析,提取标题、文本和字符集相关信息;2)对提取的文本信息内容进行分词;3)统计邮件中的词频,利用TF-IDF公式将邮件文本映射成向量;4)利用LibSVM对邮件样本进行训练得到支持向量机模型;5)利用支持向量机模型对新的邮件进行分类,得到邮件是否为垃圾邮件的概率值;6)利用阈值调整来保证正常邮件被误判为垃圾邮件的比率维持在较低的水平,并最终判定邮件是否为垃圾邮件。本发明利用了支持向量机所具有的单模型分类准确率最高的优点,综合利用了文本特征和行为特征,提高了垃圾邮件过滤的准确率,同时,还有效解决了垃圾邮件过滤时所面临的误判代价不对等问题。 |
申请公布号 |
CN101106539A |
申请公布日期 |
2008.01.16 |
申请号 |
CN200710069593.7 |
申请日期 |
2007.08.03 |
申请人 |
浙江大学 |
发明人 |
陆冠中;徐从富;王金龙 |
分类号 |
H04L12/58(2006.01);H04L29/06(2006.01);G06F17/30(2006.01);G06Q10/00(2006.01) |
主分类号 |
H04L12/58(2006.01) |
代理机构 |
杭州求是专利事务所有限公司 |
代理人 |
张法高 |
主权项 |
1.一种基于支持向量机的垃圾邮件过滤方法,其步骤如下:1)对邮件进行解析,提取标题、文本和字符集相关信息;2)对提取的文本信息内容进行分词;3)统计邮件中的词频,利用TF-IDF公式将邮件文本映射成向量;4)利用LibSVM对邮件样本进行训练得到支持向量机模型;5)利用LibSVM和4)中得到的支持向量机模型对邮件进行分类,得到邮件是否为垃圾邮件的概率值;6)利用阈值调整降低正常邮件被误判为垃圾邮件的比率,并最终判定邮件是否为垃圾邮件。 |
地址 |
310027浙江省杭州市浙大路38号 |