发明名称 递减子空间集成学算法
摘要 发明提供了一种新的不断以子样本集进行进程学的算法,属于数据挖掘领域。本发明是借鉴boosting算法思想产生的递减子空间集成学算法。在一次分类过程中,本发明通过对原始数据进行筛选,使下一层分类器更好的排除一些不必要的训练数据特征,并将关键放在关键的训练数据上面从而获得较高的分类精度。本发明重点是解决现在提高单个分类器准确率的问题。
申请公布号 CN103631753A 申请公布日期 2014.03.12
申请号 CN201310654010.2 申请日期 2013.12.09
申请人 天津工业大学 发明人 陈科;周羿
分类号 G06F15/18(2006.01)I 主分类号 G06F15/18(2006.01)I
代理机构 天津市杰盈专利代理有限公司 12207 代理人 朱红星
主权项 递减子空间集成学习算法,所述算法的输入包括训练集Dtrain,测试集Dtest,校验集Dvalid,输出包括一列分类器C0, C1,…,Ck’以及相应的置信度阈值l0, l1,…,lk’    其特征在于,通过对训练样本空间的调整来生成一系列基分类器,而在样本调整方面则借鉴了AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence),置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握;通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集;所述步骤为:(1)把Dtrain作为D0输入;(2)把0赋值给k ;(3)循环开始,把k+1赋值给k;(4)在 Dk上训练,得到分类器 Ck;(5)用Ck测试Dk中每个样本的置信度,置信度如下定义:假设分类器C预测样本s属于类标签T1,T2,…, Tm的概率分别为p1, p2,…, pm, 则分类器C对样本s预测的置信度定义为p1, p2,…, pm的最大值;设置最低的置信度水平lk,把置信度水平高于lk的样本从Dk中删除,得到Dk+1;(6)满足Dk中样本的个数Sizeof(Dk)<λ*Num(Feature)时循环结束,其中Num(Feature)指样本的特征个数,而λ为常数;(7)把迭代的次数赋值给n;(8)循环开始,k从0 到 n(9)计算使用分类器组C0, C1,…,Ck在Dvalid上的错误率Ek,对于检验集或测试集中的样本,依次使用C0, C1,…,Ck进行预测,若存在某个Ci预测的置信度高于li,则Ci的预测被采用,其后的分类器不需再使用;若不存在任何Ci预测的置信度高于li,则该样本采用Ck的预测;(10)保存最低的错误率E ’与k’(11)返回 k’, C0, C1,…,Ck’以及l0, l1,…,lk’(12)算法结束。
地址 300387 天津市西青区宾水西道399号天津工业大学