发明名称 一种垃圾邮件检测方法
摘要 本发明涉及一种垃圾邮件检测方法,包括步骤:获取分类为正常邮件和垃圾邮件的训练样本集;根据训练样本集构建正常邮件代表词库和垃圾邮件代表词库;根据训练样本集中每封邮件在正常邮件代表词库和垃圾邮件代表词库中出现不同词的个数与邮件中不同词的个数,获取邮件的浓度特征向量;根据浓度特征向量与邮件的分类,建立浓度特征向量与分类的对应关系;获取待检测邮件的浓度特征向量;根据建立的浓度特征向量与分类的对应关系,得到待检测邮件的分类。本发明提出的垃圾邮件检测方法以二元浓度高效地表示邮件所述的类别,而且精度高,高效迅速地实现了垃圾邮件检测。
申请公布号 CN101295381A 申请公布日期 2008.10.29
申请号 CN200810115584.1 申请日期 2008.06.25
申请人 北京大学 发明人 谭营;阮光尘
分类号 G06Q10/00(2006.01);G06N1/00(2006.01);G06N3/12(2006.01) 主分类号 G06Q10/00(2006.01)
代理机构 北京路浩知识产权代理有限公司 代理人 戚传江
主权项 1、一种垃圾邮件检测的方法,其特征在于,该方法包括步骤:获取分类为正常邮件和垃圾邮件的训练样本集;根据训练样本集构建正常邮件代表词库和垃圾邮件代表词库;根据训练样本集中每封邮件在正常邮件代表词库和垃圾邮件代表词库中出现不同词的个数与所述邮件中不同词的个数,获取所述邮件的浓度特征向量;根据所述浓度特征向量与所述邮件的分类,建立浓度特征向量与分类的对应关系;根据待检测邮件在正常邮件代表词库和垃圾邮件代表词库中出现不同词的个数与所述待检测邮件中不同词的个数,获取待检测邮件的浓度特征向量;根据建立的浓度特征向量与分类的对应关系,得到所述待检测邮件的分类。
地址 100871北京市海淀区颐和园路5号