发明名称 利用全局互信息加权的支持向量机分类器
摘要 本发明提供了一种利用全局互信息加权的支持向量机分类器,本发明的步骤为:一、利用全局互信息度量同维数据的重要信息含量;二、利用加权型支持向量机融合同维数据的重要信息含量,完成加权型支持向量机的训练及测试样本的类别判定任务;三、构建分类器,并对测试样本的最终类别作出决策。本发明利用全局互信息定量分析各维数据的重要信息量指数,并作为系数加权于SVM的核函数之中,使得处于重要性较强维的数据在分类中发挥更加重要的作用,从而提高分类精度。本发明充分挖掘输入向量同维数据之间隐含的关联信息并据此来指导SVM的分类过程,进而获得分类精度上的提升。
申请公布号 CN101599126B 申请公布日期 2012.09.19
申请号 CN200910071856.7 申请日期 2009.04.22
申请人 哈尔滨工业大学 发明人 沈毅;张淼;王强
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 哈尔滨市哈科专利事务所有限责任公司 23101 代理人 刘娅
主权项 1.一种利用全局互信息加权的支持向量机分类方法,其特征在于它包括如下步骤:步骤一:利用全局互信息度量同维数据的重要信息量系数;令<img file="FSB00000743895400011.GIF" wi="487" he="61" />1≤i≤M,为SVM的M个输入向量,则其可以组合成N个同维数据的向量<img file="FSB00000743895400012.GIF" wi="500" he="122" />1≤i≤N,互信息是信息论中用来度量两随机变量之间统计相关性的基本概念,对于X<sub>i</sub>和X<sub>j</sub>,首先其边缘概率分布分别为p<sub>xi</sub>(x<sub>i</sub>)和p<sub>xj</sub>(x<sub>j</sub>),联合概率分布为p<sub>xixj</sub>(x<sub>i</sub>,x<sub>j</sub>),进而可求出二者之间的互信息MI(X<sub>i</sub>,X<sub>j</sub>):<maths num="0001"><![CDATA[<math><mrow><mi>MI</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub></mrow></munder><msub><mi>p</mi><mi>xixj</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mi>log</mi><mfrac><mrow><msub><mi>p</mi><mi>xixj</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><msub><mi>p</mi><mi>xi</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><msub><mi>p</mi><mi>xj</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>由于N个同维数据向量的数据等同于M个输入向量的数据内容,因此可以通过下式定量分析同维数据向量X<sub>i</sub>所含的重要信息量系数s<sub>i</sub>:<maths num="0002"><![CDATA[<math><mrow><msub><mi>s</mi><mi>i</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>j</mi><mo>&NotEqual;</mo><mi>i</mi></mrow><mi>N</mi></munderover><mi>MI</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>1≤i≤N本步骤完成内容为:计算重要信息量系数s<sub>i</sub>,1≤i≤N;步骤二:利用加权型支持向量机融合同维数据的重要信息量系数,完成加权型支持向量机的训练及测试样本的类别判定任务;首先,利用K(Sx,Sx′)所构造的加权型SVM对训练样本中的输入数据及对应分类目标进行训练,得到支持向量及拉格朗日乘子;然后,输入测试样本中的输入数据,得到其对应的分类结果,如果分类任务需要构建多个加权型SVM,则本步骤需要执行多次,且每次对应的训练与测试样本均不同;实施分类时所选择的加权型核函数可以从满足Mercer条件的线性核函数、多项式核函数、径向基核函数和Sigmoid核函数中任选一种,通过加权处理得到,其特征是具有K(diag(s<sub>1</sub>,s<sub>2</sub>,…,s<sub>N</sub>)x,diag(s<sub>1</sub>,s<sub>2</sub>,…,s<sub>N</sub>)x′)的形式,其中重要信息量系数s<sub>i</sub>,1≤i≤N,通过步骤一计算得到;采用加权型核函数将重要信息量系数融合于SVM,常用的核函数有线性核函数K<sub>Lin</sub>(x,x′)、多项式核函数K<sub>Poly</sub>(x,x′)、径向基核函数K<sub>PBF</sub>(x,x′)和Sigmoid核函数K<sub>Sig</sub>(x,x′),其对应公式如下:K<sub>Lin</sub>(x,x′)=(x<sup>T</sup>x′)K<sub>Poly</sub>(x,x′)=(x<sup>T</sup>x′+1)<sup>d</sup>    <maths num="0003"><![CDATA[<math><mrow><msub><mi>K</mi><mi>RBF</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><msup><mi>x</mi><mo>&prime;</mo></msup><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><msup><mrow><mo>|</mo><mo>|</mo><mi>x</mi><mo>-</mo><msup><mi>x</mi><mo>&prime;</mo></msup><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mrow><mn>2</mn><msup><mi>&sigma;</mi><mn>2</mn></msup></mrow></mfrac><mo>)</mo></mrow></mrow></math>]]></maths>K<sub>Sig</sub>(x,x′)=tanh(x<sup>T</sup> x′+t)对满足Mercer条件的核函数K(x,x′),令S∈R<sup>N×N</sup>,x∈R<sup>N×1</sup>,则K(x,x′)是半正定的,K(Sx,Sx′)也是半正定的,即K(Sx,Sx′)也满足Mercer条件,将步骤一所得重要信息量系数s<sub>i</sub>组合为对角矩阵S:S=diag(s<sub>1</sub>,s<sub>2</sub>,…,s<sub>N</sub>)则可得到加权型核函数K(Sx,Sx′):    K(Sx,Sx′)=K(diag(s<sub>1</sub>,s<sub>2</sub>,…,s<sub>N</sub>)x,diag(s<sub>1</sub>,s<sub>2</sub>,…,s<sub>N</sub>)x′)该核函数利用步骤一中得到的重要信息量系数s<sub>i</sub>对同维数据进行加权,实现有所侧重的精细分类,由其所构成的加权型SVM实现了在分类中融合同维数据重要信息量系数的目的,令α=(α<sub>1</sub>,α<sub>2</sub>,…,α<sub>M</sub>)为拉格朗日乘子,y<sub>i</sub>∈{-1,1}为分类目标,则加权型SVM分类器f(x)可表示为:<maths num="0004"><![CDATA[<math><mrow><mi>f</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mi>sgn</mi><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>y</mi><mi>i</mi></msub><msub><mi>&alpha;</mi><mi>i</mi></msub><mi>K</mi><mrow><mo>(</mo><mi>Sx</mi><mo>,</mo><msup><mi>Sx</mi><mo>&prime;</mo></msup><mo>)</mo></mrow><mo>+</mo><mi>b</mi><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>步骤三:构建分类器,并对测试样本的最终类别作出决策;如果分类任务仅为二分类性质,则只需利用一个步骤二所得到的加权型SVM即可,且分类结果直接标识出输入向量的类别归属,无需再做决策;如果分类任务为多分类性质,由于SVM的本质二分性,则需要利用多个加权型SVM结合一定的策略构建多分类器,策略包括“决策树”型、“一对多”型及“一对一”型,无论基于何种策略,完成分类任务的核心工作都是由各加权型SVM所完成,只是在最终判定测试向量的类别归属时需要综合各加权型SVM的分类结果;加权型SVM无论使用了多少个,所使用的重要信息量系数均保持一致,即步骤一只需计算一次即可;而步骤二由于涉及多个二分类子任务,需要计算多次,并在本步骤中进行最终的决策确定输入向量的类别归属;对于“决策树”型策略,只要完成所有分割面的二分类任务,即可得到最终的类别归属,因此基于此种策略的加权型SVM多分类器,不需要再做类别归属的决策;对于“一对多”型策略,每个SVM都要解决某一类对其余所有类的两分类问题,最后通过比较分类函数值的大小确定最终类别,对于W类的多分类任务,需要构造W个分类器f<sub>h</sub>(x),1≤h≤W,分别处理类别h和其余所有类别之间的分类任务,为了完成该任务,步骤二需要执行W次,决策采用“赢家通吃”的原则,即最终判定类别i<sup>*</sup>为:<maths num="0005"><![CDATA[<math><mrow><msup><mi>i</mi><mo>*</mo></msup><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>w</mi></mrow></munder><mo>{</mo><msub><mi>f</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>}</mo><mo>;</mo></mrow></math>]]></maths>对于“一对一”型策略,任意两类都需要构造一个加权型SVM来处理,对于W类的多分类任务,需要构造W(W-1)/2个分类器f<sub>ij</sub>(x),分别处理类别i和类别j之间的分类任务,为了完成该任务,步骤二需要执行W(W-1)/2次,在决策之前,需要计算每一类别的评分函数F<sub>i</sub>(x),该函数统计了各分类器的正负得分,“一对一”型策略的决策也采用“赢家通吃”的原则,评分函数F<sub>i</sub>(x)和最终判定类别i<sup>*</sup>可分别表示为:<maths num="0006"><![CDATA[<math><mrow><msub><mi>F</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>j</mi><mo>&NotEqual;</mo><mi>i</mi></mrow><mi>w</mi></munderover><msub><mi>f</mi><mi>ij</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0007"><![CDATA[<math><mrow><msup><mi>i</mi><mo>*</mo></msup><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>w</mi></mrow></munder><mo>{</mo><msub><mi>F</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>}</mo><mo>.</mo></mrow></math>]]></maths>
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号