一种垃圾邮件的识别方法及系统,申请号CN201210566319.1-传众专利搜索

发明名称	一种垃圾邮件的识别方法及系统
摘要	本发明公开了一种垃圾邮件的识别方法及系统，针对现有技术中当垃圾邮件中修改的关键词越多的时候，标准的识别算法，如支持向量机算法，性能下降得很快的缺陷而发明，本方法包括，设置识别器参数，将邮件转化为向量，利用所述识别器识别该邮件，输出识别结果，本发明方法和系统能够实现抵抗伪装攻击的垃圾邮件智能识别，且达到识别性能更加稳定的技术效果。
申请公布号	CN102984176B	申请公布日期	2016.07.27
申请号	CN201210566319.1	申请日期	2012.12.24
申请人	重庆大学	发明人	周喜川;严超;胡盛东;甘平;黄智勇;张玲
分类号	H04L29/06(2006.01)I;H04L12/58(2006.01)I	主分类号	H04L29/06(2006.01)I
代理机构	重庆中流知识产权代理事务所(普通合伙) 50214	代理人	胡长生
主权项	一种垃圾邮件的识别方法，其特征在于，包括：设置识别器参数，将邮件转化为向量，利用所述识别器识别该邮件，输出识别结果；所述识别器参数设置具体包括：所述识别器计算有限攻击成本条件，所述识别器应用线性支持向量算法；所述攻击成本为<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>L</mi><mrow><mo>(</mo><mi>x</mi><mo>;</mo><msup><mi>x</mi><mo>+</mo></msup><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>d</mi></munderover><msub><mi>q</mi><mi>i</mi></msub><mo>\|</mo><msubsup><mi>x</mi><mi>i</mi><mo>+</mo></msubsup><mo>-</mo><msub><mi>x</mi><mi>i</mi></msub><mo>\|</mo><mo>≤</mo><mi>γ</mi></mrow>]]></math><img file="FDA0000945467780000011.GIF" wi="548" he="135" /></maths>其中，变量γ是所述识别器的参数，q<sub>i</sub>表示改变第i个特征造成的损失的权重系数，x<sub>i</sub>是训练样本中第i个邮件的字频表示，x<sub>i</sub><sup>+</sup>表示任意对第i个正常邮件进行恶意注入攻击后形成的恶意向量，其中+号表示恶意的垃圾邮件样本；所述q<sub>i</sub>定义为<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>q</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>\|</mo><msub><mi>D</mi><mi>s</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>\|</mo><msub><mi>D</mi><mi>s</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>\|</mo><msub><mi>D</mi><mi>l</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000945467780000012.GIF" wi="494" he="150" /></maths>其中，p(f<sub>i</sub>\|D<sub>s</sub>)表示第i个特征词出现在垃圾邮件数据库中的概率，p(f<sub>i</sub>\|D<sub>l</sub>)表示第i个特征词出现在正常邮件数据库中的概率；所述线性支持向量算法为<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>w</mi><mo>,</mo><mi>ξ</mi><mo>,</mo><mi>b</mi><mo>,</mo><mi>u</mi></mrow></munder><mo>\|</mo><mi>w</mi><mo>\|</mo><mo>+</mo><mi>C</mi><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>ξ</mi><mi>i</mi></msub></mrow>]]></math><img file="FDA0000945467780000013.GIF" wi="366" he="132" /></maths>s.t.:Y(X<sup>T</sup>w+eb)+ξ≥e,ξ≥0,A<sup>T</sup>u<sub>i</sub>+w＝0c<sub>i</sub><sup>T</sup>u<sub>i</sub>‑b+1≤0,i＝1,...,n<sub>+</sub>u<sub>i</sub>≥0,其中，T表示矩阵转秩，ξ和u均为待求变量，w为线性判别函数f(x)＝w<sup>T</sup>x+b的分类面的权系数向量，b为偏移量；C为常数，由用户进行设置；N为训练样本数；Y是一个对角矩阵，满足Y<sub>ii</sub>＝y<sub>i</sub>，其中y<sub>i</sub>表示第i个训练样本的标签；若第i个训练邮件是正常邮件，则y<sub>i</sub>＝‑1,否则y<sub>i</sub>＝+1；矩阵X∈R<sup>n×d</sup>，X＝[x<sub>1</sub>,x<sub>2</sub>,...,x<sub>n</sub>]，其中x<sub>i</sub>是训练样本中第i个邮件的字频表示；矩阵A和c定义为：<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>A</mi><mo>=</mo><mfenced open = "(" close = ")"><mtable><mtr><mtd><mi>I</mi></mtd><mtd><mrow><mo>-</mo><msup><mi>Q</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup></mrow></mtd></mtr><mtr><mtd><mi>I</mi></mtd><mtd><msup><mi>Q</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup></mtd></mtr><mtr><mtd><mi>O</mi></mtd><mtd><mrow><mo>-</mo><mi>I</mi></mrow></mtd></mtr><mtr><mtd><msup><mn>0</mn><mi>T</mi></msup></mtd><mtd><msup><mi>e</mi><mi>T</mi></msup></mtd></mtr></mtable></mfenced><mo>,</mo><mi>c</mi><mo>=</mo><mfenced open = "(" close = ")"><mtable><mtr><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mi>γ</mi></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000945467780000021.GIF" wi="476" he="311" /></maths>其中I为d×d的单位矩阵，O为d×d的零矩阵，Q是一个Q<sub>ii</sub>＝q<sub>i</sub>的对角矩阵，0是d维的零向量，e是d维的单位向量；n<sub>+</sub>为训练样本中垃圾邮件数量；γ为攻击成本最大值，由用户进行设置。
地址	400044 重庆市沙坪坝区沙正街174号