发明名称 基于用户兴趣的垃圾邮件过滤方法
摘要 本发明公开了一种基于用户兴趣的垃圾邮件过滤方法,包括步骤:各用户收到邮件后,对各用户的邮件分别解析,得到邮件的标题、正文和收件人与发件人地址;将邮件的标题和正文分词,根据分词后的邮件的标题和正文及检测器集生成特征向量,通过在每个用户各自的训练集上训练,为每个用户分别生成的分类器模型;在收到新邮件时根据各用户相应的分类器模型对邮件进行分类;当检测到用户兴趣发生变化时,对相应用户的分类器模型用邮件进行再训练,用户兴趣通过用户对垃圾邮件的定义进行设置体现。本发明能提高垃圾邮件检测的整体性能,有效地检测用户兴趣的变化,在检测到用户兴趣的变化后,对用户的分类器模型再训练,自适应于用户需求或兴趣的变化。
申请公布号 CN101764765A 申请公布日期 2010.06.30
申请号 CN200910242936.4 申请日期 2009.12.21
申请人 北京大学 发明人 谭营
分类号 H04L12/58(2006.01)I;H04L29/06(2006.01)I;G06F17/27(2006.01)I 主分类号 H04L12/58(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 胡小永
主权项 一种基于用户兴趣的垃圾邮件过滤方法,其特征在于,包括以下步骤:S1,各用户收到邮件后,对各用户的邮件分别进行解析,得到邮件的标题、正文和收件人与发件人地址,其中收件人地址用于选择和确定其相对应的检测器集和分类器模型;S2,将邮件的标题和正文进行分词,根据分词后的邮件的标题和正文以及检测器集生成特征向量,通过在每个用户各自的训练集上训练,为每个用户生成各自独立的分类器模型,在收到新邮件时根据各用户相应的分类器模型对邮件进行分类,当检测到用户兴趣发生变化时,对相应用户的分类器模型用邮件进行再训练,所述用户兴趣通过用户对垃圾邮件的定义进行设置来体现。
地址 100871 北京市海淀区颐和园路5号