基于半监督SVM集成学的分类方法,申请号CN201410119304.X-传众专利搜索

发明名称	基于半监督SVM集成学的分类方法
摘要	本发明公开了一种基于半监督SVM集成学的分类方法，主要解决现有分类方法对样本分布未知，尤其是样本分布不平衡时分类正确率低和不稳定的问题。其实现步骤是：(1)分别对训练样本集和测试样本集进行归一化；(2)更新归一化后测试样本集中正、负样本的比率，通过局部搜索构造差异性较大的基分类器；(3)用k-means算法对基分类器的分类结果进行聚类；(4)通过集成学的分类方法获得测试样本集的最终分类结果。本发明通过更新正、负样本比率构造差异性较大的基分类器，利用更多的测试样本正确分类信息，并结合邓恩指标的集成学的分类方法，提高了分布未知的样本分类正确率和稳定性，可用于模式识别、目标检测和分类的问题。
申请公布号	CN103886330A	申请公布日期	2014.06.25
申请号	CN201410119304.X	申请日期	2014.03.27
申请人	西安电子科技大学	发明人	焦李成;刘芳;张丹;王爽;白雪;侯彪;马文萍;马晶晶;杨淑媛
分类号	G06K9/62(2006.01)I;G06K9/66(2006.01)I	主分类号	G06K9/62(2006.01)I
代理机构	陕西电子工业专利中心 61205	代理人	王品华;朱红星
主权项	1.一种基于半监督SVM集成学习的分类方法，包括如下步骤：(1)分别对初始训练样本集<img file="FDA0000483149190000011.GIF" wi="192" he="79" />和测试样本集<img file="FDA0000483149190000012.GIF" wi="156" he="77" />进行归一化处理，得到归一化后的训练样本集<img file="FDA0000483149190000013.GIF" wi="180" he="79" />和测试样本集<img file="FDA0000483149190000014.GIF" wi="167" he="77" />其中X<sub>i</sub>表示初始训练样本集中的第i个样本，Y<sub>i</sub>表示初始训练样本X<sub>i</sub>的标签，X<sub>j</sub>表示初始测试样本集中的第j个样本，x<sub>i</sub>表示归一化后训练样本集中的第i个样本，y<sub>i</sub>表示归一化后训练样本x<sub>i</sub>的标签，x<sub>j</sub>表示归一化后测试样本集中的第j个样本，l表示训练样本的个数，u表示测试样本的个数；(2)构造差异性较大的基分类器：(2a)设定样本的属性，即将类别标签为1的样本设为正样本，用+1表示，将类别标签为2的样本设为负样本，用-1表示；(2b)设测试样本集中的初始正、负样本比率为：<img file="FDA0000483149190000015.GIF" wi="593" he="141" />并按照<img file="FDA0000483149190000016.GIF" wi="246" he="129" />更新测试样本集中的正、负样本比率β，其中num<sub>pos</sub>表示正样本的数量，num<sub>neg</sub>表示负样本的数量，T为更新的总次数，其取值为任意正整数；(2c)随机初始化一组训练样本集<img file="FDA0000483149190000017.GIF" wi="180" he="79" />和测试样本集<img file="FDA0000483149190000018.GIF" wi="168" he="75" />根据不同的β参数进行局部搜索，得到T个分类器、局部搜索后的测试样本集<img file="FDA0000483149190000019.GIF" wi="137" he="78" />及其T个分类结果<img file="FDA00004831491900000110.GIF" wi="165" he="83" />其中<img file="FDA00004831491900000111.GIF" wi="50" he="76" />表示局部搜索后测试样本集中的第j个样本，<img file="FDA00004831491900000112.GIF" wi="60" he="82" />表示第t个分类结果中测试样本<img file="FDA00004831491900000113.GIF" wi="51" he="81" />的标签，t＝1,2,…,T；(3)使用k-means算法对T个分类器和测试样本集<img file="FDA00004831491900000114.GIF" wi="141" he="80" />的T个分类结果<img file="FDA00004831491900000115.GIF" wi="138" he="75" />进行聚类，得到N个分类器和测试样本集<img file="FDA00004831491900000116.GIF" wi="137" he="79" />的N个分类结果<img file="FDA00004831491900000117.GIF" wi="172" he="83" />其中N取值为任意小于T的正整数，<img file="FDA00004831491900000118.GIF" wi="64" he="73" />表示聚类后第n个分类结果中测试样本<img file="FDA00004831491900000119.GIF" wi="49" he="79" />的标签，n＝1,2,…,N；(4)依次输入训练样本集<img file="FDA0000483149190000021.GIF" wi="215" he="79" />测试样本集<img file="FDA0000483149190000022.GIF" wi="167" he="81" />测试样本集<img file="FDA0000483149190000023.GIF" wi="145" he="81" />的N个分类结果<img file="FDA0000483149190000024.GIF" wi="170" he="83" />通过集成学习获得测试样本集<img file="FDA0000483149190000025.GIF" wi="138" he="82" />的最终分类结果<img file="FDA0000483149190000026.GIF" wi="218" he="84" />(4a)从测试样本集<img file="FDA0000483149190000027.GIF" wi="139" he="79" />的第n个分类结果中，找出测试样本集中与第j个测试样本<img file="FDA0000483149190000028.GIF" wi="57" he="79" />分类结果一致的样本集和分类结果不一致的样本集，即一致集X<sub>same</sub>和非一致集X<sub>dif</sub>；(4b)根据欧式距离，找出第j个测试样本<img file="FDA0000483149190000029.GIF" wi="51" he="79" />在一致集X<sub>same</sub>和非一致集X<sub>dif</sub>中的K近邻集合X<sub>same-k</sub>和X<sub>dif-k</sub>；(4c)将K近邻集合X<sub>same-k</sub>、X<sub>dif-k</sub>分别与训练样本<img file="FDA00004831491900000210.GIF" wi="182" he="79" />进行聚类，得到相似集S和相反集D；(4d)依次对第j个测试样本<img file="FDA00004831491900000211.GIF" wi="60" he="78" />的N个分类结果计算邓恩指标DI<sub>j</sub>(n)，n＝1,2,…,N；(4e)对上述邓恩指标DI<sub>j</sub>(n)进行降序排列，并从前<img file="FDA00004831491900000212.GIF" wi="66" he="129" />个邓恩指标DI<sub>j</sub>(n)对应的第j个测试样本<img file="FDA00004831491900000213.GIF" wi="58" he="78" />中，取出<img file="FDA00004831491900000214.GIF" wi="68" he="128" />个分类结果的标签作为第j个测试样本<img file="FDA00004831491900000215.GIF" wi="54" he="80" />的标签集M；(4f)对标签集M中的标签<img file="FDA00004831491900000216.GIF" wi="67" he="80" />求和，构造标签的和的符号函数<img file="FDA00004831491900000217.GIF" wi="273" he="94" />根据该符号函数<img file="FDA00004831491900000218.GIF" wi="248" he="94" />的值判定第j个测试样本<img file="FDA00004831491900000219.GIF" wi="51" he="80" />的最终标签<img file="FDA00004831491900000220.GIF" wi="136" he="82" />其中<img file="FDA00004831491900000221.GIF" wi="70" he="81" />表示标签集M中第m个标签，m＝1,2,…,M：若标签的和大于零，则符号函数<img file="FDA00004831491900000222.GIF" wi="251" he="94" />的值为+1，得到第j个测试样本<img file="FDA00004831491900000223.GIF" wi="51" he="79" />的最终标签<img file="FDA00004831491900000224.GIF" wi="104" he="82" />为+1；若标签的和小于零，则符号函数<img file="FDA00004831491900000225.GIF" wi="252" he="94" />的值为-1，得到第j个测试样本<img file="FDA00004831491900000226.GIF" wi="52" he="84" />的最终标签<img file="FDA00004831491900000227.GIF" wi="108" he="84" />为-1；若标签的和等于零，则符号函数<img file="FDA00004831491900000228.GIF" wi="249" he="94" />的值为0，得到第j个测试样本<img file="FDA00004831491900000229.GIF" wi="53" he="78" />的最终标签<img file="FDA00004831491900000230.GIF" wi="109" he="84" />为邓恩指标DI<sub>j</sub>(n)最大值对应的第j个测试样本<img file="FDA00004831491900000231.GIF" wi="55" he="74" />的标签<img file="FDA00004831491900000232.GIF" wi="123" he="77" />即<maths num="0001"><![CDATA[<math><mrow><msubsup><mi>y</mi><mi>j</mi><mi>final</mi></msubsup><mo>=</mo><msubsup><mi>y</mi><mi>j</mi><mi>max</mi></msubsup><mo>;</mo></mrow></math>]]></maths>(4g)重复步骤(4a)至(4f)，得到测试样本集<img file="FDA0000483149190000032.GIF" wi="138" he="79" />中所有测试样本的最终分类结果<maths num="0002"><![CDATA[<math><mrow><mo>{</mo><msubsup><mi>y</mi><mi>j</mi><mi>final</mi></msubsup><msubsup><mo>}</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>u</mi></msubsup><mo>.</mo></mrow></math>]]></maths>
地址	710071 陕西省西安市太白南路2号