主权项 |
递减子空间集成学习算法,所述算法的输入包括训练集Dtrain,测试集Dtest,校验集Dvalid,输出包括一列分类器C0, C1,…,Ck’以及相应的置信度阈值l0, l1,…,lk’ 其特征在于,通过对训练样本空间的调整来生成一系列基分类器,而在样本调整方面则借鉴了AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence),置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握;通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集;所述步骤为:(1)把Dtrain作为D0输入;(2)把0赋值给k ;(3)循环开始,把k+1赋值给k;(4)在 Dk上训练,得到分类器 Ck;(5)用Ck测试Dk中每个样本的置信度,置信度如下定义:假设分类器C预测样本s属于类标签T1,T2,…, Tm的概率分别为p1, p2,…, pm, 则分类器C对样本s预测的置信度定义为p1, p2,…, pm的最大值;设置最低的置信度水平lk,把置信度水平高于lk的样本从Dk中删除,得到Dk+1;(6)满足Dk中样本的个数Sizeof(Dk)<λ*Num(Feature)时循环结束,其中Num(Feature)指样本的特征个数,而λ为常数;(7)把迭代的次数赋值给n;(8)循环开始,k从0 到 n(9)计算使用分类器组C0, C1,…,Ck在Dvalid上的错误率Ek,对于检验集或测试集中的样本,依次使用C0, C1,…,Ck进行预测,若存在某个Ci预测的置信度高于li,则Ci的预测被采用,其后的分类器不需再使用;若不存在任何Ci预测的置信度高于li,则该样本采用Ck的预测;(10)保存最低的错误率E ’与k’(11)返回 k’, C0, C1,…,Ck’以及l0, l1,…,lk’(12)算法结束。 |