发明名称 基于半监督SVM集成学的分类方法
摘要 本发明公开了一种基于半监督SVM集成学的分类方法,主要解决现有分类方法对样本分布未知,尤其是样本分布不平衡时分类正确率低和不稳定的问题。其实现步骤是:(1)分别对训练样本集和测试样本集进行归一化;(2)更新归一化后测试样本集中正、负样本的比率,通过局部搜索构造差异性较大的基分类器;(3)用k-means算法对基分类器的分类结果进行聚类;(4)通过集成学的分类方法获得测试样本集的最终分类结果。本发明通过更新正、负样本比率构造差异性较大的基分类器,利用更多的测试样本正确分类信息,并结合邓恩指标的集成学的分类方法,提高了分布未知的样本分类正确率和稳定性,可用于模式识别、目标检测和分类的问题。
申请公布号 CN103886330A 申请公布日期 2014.06.25
申请号 CN201410119304.X 申请日期 2014.03.27
申请人 西安电子科技大学 发明人 焦李成;刘芳;张丹;王爽;白雪;侯彪;马文萍;马晶晶;杨淑媛
分类号 G06K9/62(2006.01)I;G06K9/66(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 王品华;朱红星
主权项 1.一种基于半监督SVM集成学习的分类方法,包括如下步骤:(1)分别对初始训练样本集<img file="FDA0000483149190000011.GIF" wi="192" he="79" />和测试样本集<img file="FDA0000483149190000012.GIF" wi="156" he="77" />进行归一化处理,得到归一化后的训练样本集<img file="FDA0000483149190000013.GIF" wi="180" he="79" />和测试样本集<img file="FDA0000483149190000014.GIF" wi="167" he="77" />其中X<sub>i</sub>表示初始训练样本集中的第i个样本,Y<sub>i</sub>表示初始训练样本X<sub>i</sub>的标签,X<sub>j</sub>表示初始测试样本集中的第j个样本,x<sub>i</sub>表示归一化后训练样本集中的第i个样本,y<sub>i</sub>表示归一化后训练样本x<sub>i</sub>的标签,x<sub>j</sub>表示归一化后测试样本集中的第j个样本,l表示训练样本的个数,u表示测试样本的个数;(2)构造差异性较大的基分类器:(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用-1表示;(2b)设测试样本集中的初始正、负样本比率为:<img file="FDA0000483149190000015.GIF" wi="593" he="141" />并按照<img file="FDA0000483149190000016.GIF" wi="246" he="129" />更新测试样本集中的正、负样本比率β,其中num<sub>pos</sub>表示正样本的数量,num<sub>neg</sub>表示负样本的数量,T为更新的总次数,其取值为任意正整数;(2c)随机初始化一组训练样本集<img file="FDA0000483149190000017.GIF" wi="180" he="79" />和测试样本集<img file="FDA0000483149190000018.GIF" wi="168" he="75" />根据不同的β参数进行局部搜索,得到T个分类器、局部搜索后的测试样本集<img file="FDA0000483149190000019.GIF" wi="137" he="78" />及其T个分类结果<img file="FDA00004831491900000110.GIF" wi="165" he="83" />其中<img file="FDA00004831491900000111.GIF" wi="50" he="76" />表示局部搜索后测试样本集中的第j个样本,<img file="FDA00004831491900000112.GIF" wi="60" he="82" />表示第t个分类结果中测试样本<img file="FDA00004831491900000113.GIF" wi="51" he="81" />的标签,t=1,2,…,T;(3)使用k-means算法对T个分类器和测试样本集<img file="FDA00004831491900000114.GIF" wi="141" he="80" />的T个分类结果<img file="FDA00004831491900000115.GIF" wi="138" he="75" />进行聚类,得到N个分类器和测试样本集<img file="FDA00004831491900000116.GIF" wi="137" he="79" />的N个分类结果<img file="FDA00004831491900000117.GIF" wi="172" he="83" />其中N取值为任意小于T的正整数,<img file="FDA00004831491900000118.GIF" wi="64" he="73" />表示聚类后第n个分类结果中测试样本<img file="FDA00004831491900000119.GIF" wi="49" he="79" />的标签,n=1,2,…,N;(4)依次输入训练样本集<img file="FDA0000483149190000021.GIF" wi="215" he="79" />测试样本集<img file="FDA0000483149190000022.GIF" wi="167" he="81" />测试样本集<img file="FDA0000483149190000023.GIF" wi="145" he="81" />的N个分类结果<img file="FDA0000483149190000024.GIF" wi="170" he="83" />通过集成学习获得测试样本集<img file="FDA0000483149190000025.GIF" wi="138" he="82" />的最终分类结果<img file="FDA0000483149190000026.GIF" wi="218" he="84" />(4a)从测试样本集<img file="FDA0000483149190000027.GIF" wi="139" he="79" />的第n个分类结果中,找出测试样本集中与第j个测试样本<img file="FDA0000483149190000028.GIF" wi="57" he="79" />分类结果一致的样本集和分类结果不一致的样本集,即一致集X<sub>same</sub>和非一致集X<sub>dif</sub>;(4b)根据欧式距离,找出第j个测试样本<img file="FDA0000483149190000029.GIF" wi="51" he="79" />在一致集X<sub>same</sub>和非一致集X<sub>dif</sub>中的K近邻集合X<sub>same-k</sub>和X<sub>dif-k</sub>;(4c)将K近邻集合X<sub>same-k</sub>、X<sub>dif-k</sub>分别与训练样本<img file="FDA00004831491900000210.GIF" wi="182" he="79" />进行聚类,得到相似集S和相反集D;(4d)依次对第j个测试样本<img file="FDA00004831491900000211.GIF" wi="60" he="78" />的N个分类结果计算邓恩指标DI<sub>j</sub>(n),n=1,2,…,N;(4e)对上述邓恩指标DI<sub>j</sub>(n)进行降序排列,并从前<img file="FDA00004831491900000212.GIF" wi="66" he="129" />个邓恩指标DI<sub>j</sub>(n)对应的第j个测试样本<img file="FDA00004831491900000213.GIF" wi="58" he="78" />中,取出<img file="FDA00004831491900000214.GIF" wi="68" he="128" />个分类结果的标签作为第j个测试样本<img file="FDA00004831491900000215.GIF" wi="54" he="80" />的标签集M;(4f)对标签集M中的标签<img file="FDA00004831491900000216.GIF" wi="67" he="80" />求和,构造标签的和的符号函数<img file="FDA00004831491900000217.GIF" wi="273" he="94" />根据该符号函数<img file="FDA00004831491900000218.GIF" wi="248" he="94" />的值判定第j个测试样本<img file="FDA00004831491900000219.GIF" wi="51" he="80" />的最终标签<img file="FDA00004831491900000220.GIF" wi="136" he="82" />其中<img file="FDA00004831491900000221.GIF" wi="70" he="81" />表示标签集M中第m个标签,m=1,2,…,M:若标签的和大于零,则符号函数<img file="FDA00004831491900000222.GIF" wi="251" he="94" />的值为+1,得到第j个测试样本<img file="FDA00004831491900000223.GIF" wi="51" he="79" />的最终标签<img file="FDA00004831491900000224.GIF" wi="104" he="82" />为+1;若标签的和小于零,则符号函数<img file="FDA00004831491900000225.GIF" wi="252" he="94" />的值为-1,得到第j个测试样本<img file="FDA00004831491900000226.GIF" wi="52" he="84" />的最终标签<img file="FDA00004831491900000227.GIF" wi="108" he="84" />为-1;若标签的和等于零,则符号函数<img file="FDA00004831491900000228.GIF" wi="249" he="94" />的值为0,得到第j个测试样本<img file="FDA00004831491900000229.GIF" wi="53" he="78" />的最终标签<img file="FDA00004831491900000230.GIF" wi="109" he="84" />为邓恩指标DI<sub>j</sub>(n)最大值对应的第j个测试样本<img file="FDA00004831491900000231.GIF" wi="55" he="74" />的标签<img file="FDA00004831491900000232.GIF" wi="123" he="77" />即<maths num="0001"><![CDATA[<math><mrow><msubsup><mi>y</mi><mi>j</mi><mi>final</mi></msubsup><mo>=</mo><msubsup><mi>y</mi><mi>j</mi><mi>max</mi></msubsup><mo>;</mo></mrow></math>]]></maths>(4g)重复步骤(4a)至(4f),得到测试样本集<img file="FDA0000483149190000032.GIF" wi="138" he="79" />中所有测试样本的最终分类结果<maths num="0002"><![CDATA[<math><mrow><mo>{</mo><msubsup><mi>y</mi><mi>j</mi><mi>final</mi></msubsup><msubsup><mo>}</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>u</mi></msubsup><mo>.</mo></mrow></math>]]></maths>
地址 710071 陕西省西安市太白南路2号