发明名称 |
基于用户兴趣的垃圾邮件过滤方法 |
摘要 |
本发明公开了一种基于用户兴趣的垃圾邮件过滤方法,包括步骤:各用户收到邮件后,对各用户的邮件分别解析,得到邮件的标题、正文和收件人与发件人地址;将邮件的标题和正文分词,根据分词后的邮件的标题和正文及检测器集生成特征向量,通过在每个用户各自的训练集上训练,为每个用户分别生成的分类器模型;在收到新邮件时根据各用户相应的分类器模型对邮件进行分类;当检测到用户兴趣发生变化时,对相应用户的分类器模型用邮件进行再训练,用户兴趣通过用户对垃圾邮件的定义进行设置体现。本发明能提高垃圾邮件检测的整体性能,有效地检测用户兴趣的变化,在检测到用户兴趣的变化后,对用户的分类器模型再训练,自适应于用户需求或兴趣的变化。 |
申请公布号 |
CN101764765A |
申请公布日期 |
2010.06.30 |
申请号 |
CN200910242936.4 |
申请日期 |
2009.12.21 |
申请人 |
北京大学 |
发明人 |
谭营 |
分类号 |
H04L12/58(2006.01)I;H04L29/06(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
H04L12/58(2006.01)I |
代理机构 |
北京路浩知识产权代理有限公司 11002 |
代理人 |
胡小永 |
主权项 |
一种基于用户兴趣的垃圾邮件过滤方法,其特征在于,包括以下步骤:S1,各用户收到邮件后,对各用户的邮件分别进行解析,得到邮件的标题、正文和收件人与发件人地址,其中收件人地址用于选择和确定其相对应的检测器集和分类器模型;S2,将邮件的标题和正文进行分词,根据分词后的邮件的标题和正文以及检测器集生成特征向量,通过在每个用户各自的训练集上训练,为每个用户生成各自独立的分类器模型,在收到新邮件时根据各用户相应的分类器模型对邮件进行分类,当检测到用户兴趣发生变化时,对相应用户的分类器模型用邮件进行再训练,所述用户兴趣通过用户对垃圾邮件的定义进行设置来体现。 |
地址 |
100871 北京市海淀区颐和园路5号 |