发明名称 基于多标签约束支持向量机的分类方法
摘要 本发明实施例公开了一种基于多标签约束支持向量机的分类方法,包括以下步骤:首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离;然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点,并提出了多标签邻域相似度约束;最后,结合多标签邻域相似度约束和传统的支持向量机约束,提出一种新的多标签约束支持向量机分类器进行多标签分类训练。本发明用于通过多标签约束利用多标签空间中包含的信息来提高鉴别型分类器在多标签分类中的分类精度,降低噪声标签对分类的影响。
申请公布号 CN102945372B 申请公布日期 2015.06.24
申请号 CN201210398567.X 申请日期 2012.10.18
申请人 浙江大学 发明人 祁仲昂;杨名;张仲非;张正友
分类号 G06K9/62(2006.01)I;G06F17/30(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 杭州宇信知识产权代理事务所(普通合伙) 33231 代理人 张宇娟;施海寅
主权项 一种基于多标签约束支持向量机的分类方法,其特征在于,包括以下步骤:首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,所述新型的距离度量方法为:将多标签训练集表示为<img file="FDA0000686204860000018.GIF" wi="82" he="65" />多标签训练集中的每个点<img file="FDA00006862048600000110.GIF" wi="144" he="59" />都被标上了多种多样的标签,整个多标签训练集的标签字典组成了S维的多标签空间<img file="FDA0000686204860000015.GIF" wi="99" he="55" />多标签训练集中的每个点<img file="FDA00006862048600000111.GIF" wi="144" he="64" />的特征向量表示为x<sub>i</sub>,在标签字典中的标签向量表示为d<sub>i</sub>=(d<sub>i,1</sub>,d<sub>i,2</sub>,...,d<sub>i,S</sub>)′,其中d<sub>i,r</sub>∈{0,1},l≤r≤S表示字典中的第r个标签T<sub>r</sub>是否在I<sub>i</sub>中出现,同时用y<sub>i,r</sub>表示I<sub>i</sub>的分类标签,y<sub>i,r</sub>=2·d<sub>i,r</sub>‑1,在多标签一对多One Vs All的分类模式中,当一个标签T<sub>r</sub>被作为分类目标时,标签字典中其余的标签就会组成一个S‑1维的标签特征空间<img file="FDA0000686204860000016.GIF" wi="112" he="75" />用t<sub>i,r</sub>表示I<sub>i</sub>在空间<img file="FDA0000686204860000017.GIF" wi="76" he="60" />中的特征向量,t<sub>i,r</sub>=(d<sub>i,1</sub>,...,d<sub>i,r‑1</sub>,d<sub>i,r+1</sub>,...,d<sub>i,s)</sub>′,定义<img file="FDA0000686204860000019.GIF" wi="1061" he="99" />当给定d<sub>i,k</sub>=0 or 1时,其中,k∈{1,...,r‑1,r+1,...,S},d<sub>i,r</sub>=0 or 1的条件概率如下所示:<img file="FDA0000686204860000011.GIF" wi="1245" he="157" /><img file="FDA0000686204860000012.GIF" wi="956" he="154" /><maths num="0001" id="cmaths0001"><img file="FDA0000686204860000013.GIF" wi="873" he="66" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>P</mi><mn>01</mn></msub><mover><mo>=</mo><mi>&Delta;</mi></mover><mi>P</mi><mrow><mo>(</mo><msub><mi>d</mi><mrow><mi>i</mi><mo>,</mo><mi>r</mi></mrow></msub><mo>=</mo><mn>0</mn><mo>|</mo><msub><mi>d</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><msub><mi>P</mi><mn>11</mn></msub></mrow>]]></math><img file="FDA0000686204860000014.GIF" wi="880" he="75" /></maths>将每一个标签T<sub>r</sub>的关联度向量标记为g<sub>r</sub>,g<sub>r</sub>=(g<sub>r,1</sub>,...,g<sub>r,r‑1</sub>,g<sub>r,r+1</sub>,...,g<sub>r,S</sub>)′;向量的每一个元素表示标签T<sub>r</sub>与其他标签的关联度;关联度元素g<sub>r,k</sub>(k∈{1,...,r‑1,r+1,...,S})的定义如下式所示:g<sub>r,k</sub>=P<sub>00</sub>·P<sub>11</sub>+P<sub>10</sub>·P<sub>01</sub>,将样本点在空间<img file="FDA00006862048600000112.GIF" wi="70" he="60" />中的特征向量与每一个标签T<sub>r</sub>关联度向量结合起来,得到多标签空间中一种新型的距离度量方法的定义如下式所示:dis<sub>r</sub>(I<sub>i</sub>,I<sub>j</sub>)=||(t<sub>i,r</sub>‑t<sub>j,r</sub>)⊙g<sub>r</sub>||<sub>p</sub>,其中⊙表示向量之间的阿达马Hadamard乘积;然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点,并提出了多标签邻域相似度约束,所述的邻域以及多标签邻域相似度约束的建立方法为:I<sub>i</sub>在空间<img file="FDA0000686204860000021.GIF" wi="76" he="65" />中用这种新型距离度量方法定义的邻域,不包括I<sub>i</sub>自己,表示为<img file="FDA0000686204860000022.GIF" wi="184" he="77" />I<sub>i</sub>和其邻域<img file="FDA0000686204860000023.GIF" wi="157" he="69" />中数据点的分类结果相似度高,和非邻域数据点的分类结果相似度低,邻域<img file="FDA0000686204860000024.GIF" wi="157" he="70" />的大小u表示I<sub>i</sub>在空间<img file="FDA0000686204860000025.GIF" wi="76" he="65" />中的最邻近的邻居点的个数,<img file="FDA0000686204860000026.GIF" wi="504" he="89" />所述多标签约束支持向量机通过添加多标签空间邻域相似度约束来最小化每一个点和其在多标签空间<img file="FDA0000686204860000027.GIF" wi="80" he="65" />中最邻近的邻居点的分类结果之间的差异,该约束如下所示:<img file="FDA0000686204860000028.GIF" wi="96" he="70" />且<img file="FDA0000686204860000029.GIF" wi="914" he="76" />其中w是多标签约束支持向量机分类器的系数;最后,结合多标签邻域相似度约束和传统的支持向量机约束,提出一种新的多标签约束支持向量机分类器进行多标签分类训练,所述新的多标签约束支持向量机分类器的建立方法为:结合上述多标签约束条件和传统的支持向量机约束条件,整合到多标签约束支持向量机的优化式中,优化式如下所示:<img file="FDA00006862048600000210.GIF" wi="1090" he="191" /><img file="FDA00006862048600000211.GIF" wi="1036" he="88" /><img file="FDA00006862048600000212.GIF" wi="103" he="76" />且<img file="FDA00006862048600000213.GIF" wi="986" he="85" />其中<img file="FDA00006862048600000214.GIF" wi="106" he="71" />分别是多标签约束支持向量机分类器的系数和偏置,C和C<sup>*</sup>是常数,且C<sup>*</sup><C,ξ<sub>i</sub>是松弛变量,“s.t.”表示“受约束”“使得......满足”,<img file="FDA00006862048600000215.GIF" wi="142" he="70" />表示“对于任意的i,i∈{1,2,...,n}”。
地址 310027 浙江省杭州市西湖区浙大路38号