发明名称 基于多标签柔性支持向量机的分类方法
摘要 本发明实施例公开了一种基于多标签柔性支持向量机的分类方法,包括以下步骤:首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离;然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点;最后,结合每个样本点在多标签空间中的邻域信息,利用提出的一种新的多标签柔性支持向量机分类器进行多标签分类训练。本发明用于利用多标签空间中包含的信息来提高鉴别型分类器在多标签分类中的分类精度,降低噪声标签对分类的影响。
申请公布号 CN102945371A 申请公布日期 2013.02.27
申请号 CN201210396793.4 申请日期 2012.10.18
申请人 浙江大学 发明人 祁仲昂;杨名;张仲非;张正友
分类号 G06K9/62(2006.01)I;G06F17/30(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 杭州宇信知识产权代理事务所(普通合伙) 33231 代理人 张宇娟;施海寅
主权项 1.一种基于多标签柔性支持向量机的分类方法,其特征在于,包括以下步骤:首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,所述新型的距离度量方法为:将多标签训练集表示为<img file="FDA00002270845300011.GIF" wi="55" he="46" />训练集中的每个点<img file="FDA00002270845300012.GIF" wi="142" he="51" />都被标上了多种多样的标签,整个训练集的标签字典组成了S维的多标签空间<img file="FDA00002270845300013.GIF" wi="66" he="45" />多标签训练集中的每个点<img file="FDA00002270845300014.GIF" wi="136" he="51" />在视角<img file="FDA00002270845300015.GIF" wi="52" he="47" />中的特征向量表示为x<sub>i</sub>,在标签字典中的标签向量表示为d<sub>i</sub>=(d<sub>i,1</sub>,d<sub>i,2</sub>,...,d<sub>i,S</sub>)′,其中d<sub>i,r</sub> ∈{0,1},1≤r≤S表示字典中的第r个标签T<sub>r</sub>是否在I<sub>i</sub>中出现,同时用y<sub>i,r</sub>表示I<sub>i</sub>的分类标签,y<sub>i,r</sub>=2·d<sub>i,r</sub>-1,在多标签一对多OneVs All的分类模式中,当一个标签T<sub>r</sub>被作为分类目标时,标签字典中其余的标签就会组成一个S-1维的标签特征空间<img file="FDA00002270845300016.GIF" wi="79" he="54" />用t<sub>i,r</sub>表示I<sub>i</sub>在空间<img file="FDA00002270845300017.GIF" wi="63" he="52" />中的特征向量,t<sub>i,r</sub>=(d<sub>i,1</sub>,...,d<sub>i,r-1</sub>,d<sub>i,r+1</sub>,...,d<sub>i,S</sub>)′,定义<img file="FDA00002270845300018.GIF" wi="1082" he="60" />当给定d<sub>i,k</sub>=0or 1时,d<sub>i,r</sub>=0or1的条件概率如下所示:<img file="FDA00002270845300019.GIF" wi="1174" he="134" /><img file="FDA000022708453000110.GIF" wi="892" he="134" /><maths num="0001"><![CDATA[<math><mrow><msub><mi>P</mi><mn>10</mn></msub><mover><mo>=</mo><mi>&Delta;</mi></mover><mi>P</mi><mrow><mo>(</mo><msub><mi>d</mi><mrow><mi>i</mi><mo>,</mo><mi>r</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>|</mo><msub><mi>d</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>=</mo><mn>0</mn><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><msub><mi>P</mi><mn>00</mn></msub></mrow></math>]]></maths><maths num="0002"><![CDATA[<math><mrow><msub><mi>P</mi><mn>01</mn></msub><mover><mo>=</mo><mi>&Delta;</mi></mover><mi>P</mi><mrow><mo>(</mo><msub><mi>d</mi><mrow><mi>i</mi><mo>,</mo><mi>r</mi></mrow></msub><mo>=</mo><mn>0</mn><mo>|</mo><msub><mi>d</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><msub><mi>P</mi><mn>11</mn></msub></mrow></math>]]></maths>将每一个标签T<sub>r</sub>的关联度向量标记为g<sub>r</sub>,g<sub>r</sub>=(g<sub>r,1</sub>,...,g<sub>r,r-1</sub>,g<sub>r,r+1</sub>,...,g<sub>r,S</sub>)′,向量的每一个元素表示标签T<sub>r</sub>与其他标签的关联度,关联度元素g<sub>r,k</sub>(k∈{1,...,r-1,r+1,...,S})的定义如下式所示:g<sub>r,k</sub>=P<sub>00</sub>·P<sub>11</sub>+P<sub>10</sub>·P<sub>01</sub>,将样本点在空间<img file="FDA000022708453000113.GIF" wi="63" he="51" />中的特征向量与每一个标签T<sub>r</sub>关联度向量结合起来,得到多标签空间中一种新型的距离度量方法的定义如下式所示:dis<sub>r</sub>(I<sub>i</sub>,I<sub>j</sub>)=||(t<sub>i,r</sub>-t<sub>j,r</sub>)⊙g<sub>r</sub>||<sub>p</sub>,其中⊙表示向量之间的阿达马Hadamard乘积;然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点,所述的邻域的表示方法为:I<sub>i</sub>在空间<img file="FDA00002270845300021.GIF" wi="64" he="52" />中用这种新型距离度量方法定义的邻域,不包括I<sub>i</sub>自己,表示为<img file="FDA00002270845300022.GIF" wi="160" he="59" />I<sub>i</sub>和其领域<img file="FDA00002270845300023.GIF" wi="144" he="56" />中数据点的分类结果相似度高,和非邻域数据点的分类结果相似度低,邻域<img file="FDA00002270845300024.GIF" wi="149" he="61" />的大小u表示I<sub>i</sub>在空间<img file="FDA00002270845300025.GIF" wi="63" he="52" />中的最邻近的邻居点的个数,<img file="FDA00002270845300026.GIF" wi="474" he="70" />最后,结合每个样本点在多标签空间中的邻域信息,利用提出的一种新的多标签柔性支持向量机分类器进行多标签分类训练,所述新的多标签柔性支持向量机分类器的建立方法为:将每个点I<sub>i</sub>的分类标签y<sub>i,r</sub>的取值范围从两个点{-1,+1}扩展到了一个柔性范围[-1,+1]内,每个点I<sub>i</sub>的柔性分类标签标记为l<sub>i,r</sub>,l<sub>i,r</sub>的取值不仅取决于I<sub>i</sub>的分类标签y<sub>i,r</sub>,还取决于I<sub>i</sub>在空间<img file="FDA00002270845300027.GIF" wi="63" he="51" />中最邻近的邻居点的分类标签,l<sub>i,r</sub>的定义如下所示:<img file="FDA00002270845300028.GIF" wi="860" he="210" />D是常量,且0≤D<1,多标签柔性支持向量机的优化式如下:<maths num="0003"><![CDATA[<math><mrow><munder><mi>min</mi><mi>w</mi></munder><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>|</mo><mo>|</mo><mi>w</mi><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>+</mo><mi>C</mi><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo>|</mo><msub><mi>l</mi><mrow><mi>i</mi><mo>,</mo><mi>r</mi></mrow></msub><mo>|</mo><msub><mi>&xi;</mi><mi>i</mi></msub></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><msubsup><mo>&ForAll;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mo>:</mo><msub><mi>l</mi><mrow><mi>i</mi><mo>,</mo><mi>r</mi></mrow></msub><mrow><mo>(</mo><msup><mi>w</mi><mi>T</mi></msup><msub><mi>x</mi><mi>i</mi></msub><mo>+</mo><mover><mi>b</mi><mo>^</mo></mover><mo>)</mo></mrow><mo>&GreaterEqual;</mo><msup><mrow><mo>|</mo><msub><mi>l</mi><mrow><mi>i</mi><mo>,</mo><mi>r</mi></mrow></msub><mo>|</mo></mrow><mn>2</mn></msup><mo>-</mo><mo>|</mo><msub><mi>l</mi><mrow><mi>i</mi><mo>,</mo><mi>r</mi></mrow></msub><mo>|</mo><msub><mi>&xi;</mi><mi>i</mi></msub><mo>,</mo><msub><mi>&xi;</mi><mi>i</mi></msub><mo>&GreaterEqual;</mo><mn>0</mn></mrow></math>]]></maths>其中w,<img file="FDA000022708453000211.GIF" wi="30" he="56" />分别是多标签柔性支持向量机分类器SVM-MSM的系数和偏置,C是常数,ξ<sub>i</sub>是松弛变量。
地址 310027 浙江省杭州市西湖区浙大路38号