发明名称 |
基于贝叶斯分类的中文垃圾邮件内容分类鉴别算法 |
摘要 |
目前,基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题。将文本分类等机器学的相关方法应用于垃圾邮件的搜索和判定是进行大量垃圾邮件处理的有效方法。贝叶斯分类方法在垃圾邮件处理上表现出了很高的准确度,并且表现出了可持续更新学的优良特性,因此基于贝叶斯分类的垃圾邮件过滤方法受到了广泛的关注。当前贝叶斯分类算法中采用的特征选择方法有基于文档频数选择和基于互信息选择。这两种特征选择方法都不能有效地衡量低频词对分类的贡献。本发明提出了一个新的特征选择参量——似然比对数,它专门针对垃圾邮件分类应用,综合了低频词在邮件中出现和不出现的两种情况下对分类的影响,使得贝叶斯分类过程能够利用特征选择过程的计算结果,并通过实验证明了这种方法提高了分类结果的召回率和分类性能。 |
申请公布号 |
CN1790405A |
申请公布日期 |
2006.06.21 |
申请号 |
CN200510135603.3 |
申请日期 |
2005.12.31 |
申请人 |
钱德沛 |
发明人 |
钱德沛 |
分类号 |
G06Q10/00(2006.01) |
主分类号 |
G06Q10/00(2006.01) |
代理机构 |
|
代理人 |
|
主权项 |
1、一种基于贝叶斯分类的中文垃圾邮件内容分类鉴别算法,该算法主要是将贝叶斯分类算法原理运用到中文垃圾邮件过滤上。同时在贝叶斯基础上,提出了一个新的特征选择参量——似然比对数,它专门针对垃圾邮件分类应用,综合了低频词在邮件中出现和不出现的两种情况下对分类的影响,使得贝叶斯分类过程能够利用特征选择过程的计算结果。 |
地址 |
100083北京市海淀区学院路35号世宁大厦16层中德所 |