发明名称 一种基于兴趣认知的垃圾邮件识别方法及其系统
摘要 本发明提供一种基于兴趣认知的垃圾邮件识别方法,包括下述步骤:1.个人兴趣认知知识库的建立和维护;2.概率计算和邮件属性评价;3.结果输出;一种实现上述方法的垃圾邮件识别系统,包括包括分词部件、垃圾邮件概率计算部件、知识库部件、分类评价部件、属性评价输出部件等。本发明精确度好,智能化程度高,可达到较好的垃圾邮件过滤效果。
申请公布号 CN100583840C 申请公布日期 2010.01.20
申请号 CN200610124174.4 申请日期 2006.12.12
申请人 华南理工大学 发明人 皮佑国
分类号 H04L12/58(2006.01)I;H04L29/06(2006.01)I;G06Q10/00(2006.01)I 主分类号 H04L12/58(2006.01)I
代理机构 广州市华学知识产权代理有限公司 代理人 杨晓松
主权项 1、一种基于兴趣认知的垃圾邮件识别方法,其特征在于包括下述步骤:1.个人兴趣认知知识库的建立和维护1.1通过最大限度地收集客户往来的邮件,认知客户的生活和工作兴趣;将客户邮件的邮件主题、邮件内容分解为单词;1.2以由1.1得到的单词为索引建立、更新和扩充知识库,对没有的单词进行添加并按1.3登记属性概率;对知识库中已经有的单词只是考虑新的事件重新计算并刷新其属性概率,实现知识库的积累和更新;1.3知识库中的属性概率按照如下规律确定并刷新:对发送出去的邮件中所有的单词,均记为出现在正常邮件中的样本;对接收邮件中的单词,在训练期内,按照客户确定的属性记录样本数,在训练期完成以后,按照系统决策的属性记入样本数;1.4对知识库单词出现的总样本数设定有阈值,仅当各个分词的总样本数高于这个阈值时,才容许结束训练期;2.概率计算和邮件属性评价2.1按照1.1中得出的单词总数和1.2及1.3中得出的属性概率分别计算各单词在待评价邮件中出现的条件概率;2.2利用2.1的结果利用贝叶斯分类公式计算邮件的属性概率;2.3根据给定的决策阈值进行属性评价;2.4在训练期内,将评价决策结果与客户的决策结果进行比较并修改决策阈值,仅当决策结果与客户决策结果达到接近时,才能结束训练期;3.结果输出。
地址 510640广东省广州市天河区五山