发明名称 一种垃圾邮件的识别方法及系统
摘要 本发明公开了一种垃圾邮件的识别方法及系统,针对现有技术中当垃圾邮件中修改的关键词越多的时候,标准的识别算法,如支持向量机算法,性能下降得很快的缺陷而发明,本方法包括,设置识别器参数,将邮件转化为向量,利用所述识别器识别该邮件,输出识别结果,本发明方法和系统能够实现抵抗伪装攻击的垃圾邮件智能识别,且达到识别性能更加稳定的技术效果。
申请公布号 CN102984176B 申请公布日期 2016.07.27
申请号 CN201210566319.1 申请日期 2012.12.24
申请人 重庆大学 发明人 周喜川;严超;胡盛东;甘平;黄智勇;张玲
分类号 H04L29/06(2006.01)I;H04L12/58(2006.01)I 主分类号 H04L29/06(2006.01)I
代理机构 重庆中流知识产权代理事务所(普通合伙) 50214 代理人 胡长生
主权项 一种垃圾邮件的识别方法,其特征在于,包括:设置识别器参数,将邮件转化为向量,利用所述识别器识别该邮件,输出识别结果;所述识别器参数设置具体包括:所述识别器计算有限攻击成本条件,所述识别器应用线性支持向量算法;所述攻击成本为<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>L</mi><mrow><mo>(</mo><mi>x</mi><mo>;</mo><msup><mi>x</mi><mo>+</mo></msup><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>d</mi></munderover><msub><mi>q</mi><mi>i</mi></msub><mo>|</mo><msubsup><mi>x</mi><mi>i</mi><mo>+</mo></msubsup><mo>-</mo><msub><mi>x</mi><mi>i</mi></msub><mo>|</mo><mo>&le;</mo><mi>&gamma;</mi></mrow>]]></math><img file="FDA0000945467780000011.GIF" wi="548" he="135" /></maths>其中,变量γ是所述识别器的参数,q<sub>i</sub>表示改变第i个特征造成的损失的权重系数,x<sub>i</sub>是训练样本中第i个邮件的字频表示,x<sub>i</sub><sup>+</sup>表示任意对第i个正常邮件进行恶意注入攻击后形成的恶意向量,其中+号表示恶意的垃圾邮件样本;所述q<sub>i</sub>定义为<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>q</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>|</mo><msub><mi>D</mi><mi>s</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>|</mo><msub><mi>D</mi><mi>s</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>|</mo><msub><mi>D</mi><mi>l</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000945467780000012.GIF" wi="494" he="150" /></maths>其中,p(f<sub>i</sub>|D<sub>s</sub>)表示第i个特征词出现在垃圾邮件数据库中的概率,p(f<sub>i</sub>|D<sub>l</sub>)表示第i个特征词出现在正常邮件数据库中的概率;所述线性支持向量算法为<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>w</mi><mo>,</mo><mi>&xi;</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>u</mi></mrow></munder><mo>|</mo><mi>w</mi><mo>|</mo><mo>+</mo><mi>C</mi><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>&xi;</mi><mi>i</mi></msub></mrow>]]></math><img file="FDA0000945467780000013.GIF" wi="366" he="132" /></maths>s.t.:Y(X<sup>T</sup>w+eb)+ξ≥e,ξ≥0,A<sup>T</sup>u<sub>i</sub>+w=0c<sub>i</sub><sup>T</sup>u<sub>i</sub>‑b+1≤0,i=1,...,n<sub>+</sub>u<sub>i</sub>≥0,其中,T表示矩阵转秩,ξ和u均为待求变量,w为线性判别函数f(x)=w<sup>T</sup>x+b的分类面的权系数向量,b为偏移量;C为常数,由用户进行设置;N为训练样本数;Y是一个对角矩阵,满足Y<sub>ii</sub>=y<sub>i</sub>,其中y<sub>i</sub>表示第i个训练样本的标签;若第i个训练邮件是正常邮件,则y<sub>i</sub>=‑1,否则y<sub>i</sub>=+1;矩阵X∈R<sup>n×d</sup>,X=[x<sub>1</sub>,x<sub>2</sub>,...,x<sub>n</sub>],其中x<sub>i</sub>是训练样本中第i个邮件的字频表示;矩阵A和c定义为:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>A</mi><mo>=</mo><mfenced open = "(" close = ")"><mtable><mtr><mtd><mi>I</mi></mtd><mtd><mrow><mo>-</mo><msup><mi>Q</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup></mrow></mtd></mtr><mtr><mtd><mi>I</mi></mtd><mtd><msup><mi>Q</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup></mtd></mtr><mtr><mtd><mi>O</mi></mtd><mtd><mrow><mo>-</mo><mi>I</mi></mrow></mtd></mtr><mtr><mtd><msup><mn>0</mn><mi>T</mi></msup></mtd><mtd><msup><mi>e</mi><mi>T</mi></msup></mtd></mtr></mtable></mfenced><mo>,</mo><mi>c</mi><mo>=</mo><mfenced open = "(" close = ")"><mtable><mtr><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mi>&gamma;</mi></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000945467780000021.GIF" wi="476" he="311" /></maths>其中I为d×d的单位矩阵,O为d×d的零矩阵,Q是一个Q<sub>ii</sub>=q<sub>i</sub>的对角矩阵,0是d维的零向量,e是d维的单位向量;n<sub>+</sub>为训练样本中垃圾邮件数量;γ为攻击成本最大值,由用户进行设置。
地址 400044 重庆市沙坪坝区沙正街174号
您可能感兴趣的专利