一种机器学中的分类器集成方法,申请号CN201310655891.X-传众专利搜索

发明名称	一种机器学中的分类器集成方法
摘要	本发明提供了一种机器学中的分类器集成方法，它使用RandomForest算法产生的基分类器作为新的算法的基分类器。使用L1_Magic算法对这些原始分类器的权值进行优化，充分利用了各个基分类器之间的差异性，使得集合分类器对训练集中的每一个样本分类正确的可能性一致。使用新的集成分类器采用带权值的投票方式对测试集进行分类，进而提高了分类的正确率。与RandomForest算法相比，该发明的最大的优点在于充分利用了各个基分类器之间的差异性，使得集合分类器对样本数据的分类正确率有了提高。同时也完善了对人工智能领域中如何使用多样性/差异性提高集成分类器效果。
申请公布号	CN103632168B	申请公布日期	2017.01.18
申请号	CN201310655891.X	申请日期	2013.12.09
申请人	天津工业大学	发明人	陈科;朱波
分类号	G06K9/62(2006.01)I	主分类号	G06K9/62(2006.01)I
代理机构	天津市杰盈专利代理有限公司 12207	代理人	朱红星
主权项	一种机器学习中的分类器集成方法，所述分类器集成方法包括基分类器的产生、给予基分类器优化后的权重、采用带权值的投票方法对数据进行分类；利用RandomForest算法生成的不同的多棵决策树分类器作为新的算法的基分类器，采用L1_Magic算法对基分类器的权重进行优化，充分利用基分类器之间的差异性，使得集成分类器达到更优的性能，其特征在于所述方法包括以下步骤：（1）第一步：对给定的数据样本集进行分割；将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份，分别作为训练集和测试集,其样本数目分别标记为<img file="95196dest_path_image001.GIF" wi="59" he="20" />（2）第二步：在训练集上进行模型的学习，得到不同的分类器；使用RandomForest算法在训练集上进行分类模型的学习，从而可以生成M个基分类器；（3）第三步：给予第二步学习得到的分类器相应的权重系数，分别使用第二步中得到的M个分类器对第一步中得到的训练集中的<img file="933708dest_path_image002.GIF" wi="15" he="16" />个样本进行分类，其分类结果标记为<img file="916707dest_path_image003.GIF" wi="26" he="15" />其中<img file="764446dest_path_image004.GIF" wi="265" he="19" />如果分类正确，<img file="516502dest_path_image005.GIF" wi="159" he="21" />从而可以得<img file="791494dest_path_image006.GIF" wi="58" he="16" />阶矩阵A；分别使用第二步中得到的M个分类器对第一步中得到的训练集中的<img file="996211dest_path_image007.GIF" wi="15" he="16" />个样本进行分类，可以得到每一个分类器在训练集上分类的正确率<img file="382061dest_path_image008.GIF" wi="18" he="16" />其中<img file="254203dest_path_image009.GIF" wi="135" he="16" />组成的集合，记为向量<img file="434517dest_path_image010.GIF" wi="70" he="18" />个具有特定正确率<img file="392109dest_path_image011.GIF" wi="8" he="9" />的分类器相互独立，则它们组成的集合对训练数据进行分类正确的结果x服从于二项分布，<img file="66804dest_path_image012.GIF" wi="94" he="19" />那么这n个分类器组成的集合对样本分类正确的概率<img file="777140dest_path_image013.GIF" wi="106" he="29" />从而可以求得与正确率为a的分类器等价的正确率为b的分类器的个数，以M个分类器中在训练集上分类的正确率最大的分类器为基准，从而可以求得每一个与之等价的分类器的数目<img file="144667dest_path_image014.GIF" wi="25" he="19" />其中<img file="573243dest_path_image015.GIF" wi="128" he="16" />组成的集合，记为向量<img file="51629dest_path_image016.GIF" wi="77" he="18" />中的每一项进行标准化得到新的向量<img file="622331dest_path_image017.GIF" wi="23" he="16" />标准化的过程为<img file="895180dest_path_image018.GIF" wi="107" he="54" />个分类器的权重系数<img file="76632dest_path_image019.GIF" wi="25" he="15" />其中<img file="93129dest_path_image020.GIF" wi="132" he="16" />组成的集合记为向量<img file="778058dest_path_image021.GIF" wi="27" he="17" />为了使得这M个分类器组成的集合具有多样性，进而提高集成分类器的正确率，可以对权重系数进行优化，即求得最优的<img file="487388dest_path_image022.GIF" wi="224" he="21" />值最小，其中需要满足的条件是<img file="890556dest_path_image023.GIF" wi="171" he="19" />采用L1_Magic算法可以求得近似最优的<img file="710744dest_path_image024.GIF" wi="26" he="17" />第四步：集成第二步得到的分类器，对测试集进行分类；将给定数据样本的类标号的数目记为L；依次使用第二步中得到的M个分类器对第一步中得到的测试集中的<img file="250179dest_path_image025.GIF" wi="21" he="18" />个样本进行分类，可以得到对每一个样本都有M个分类结果，采用带权值的投票方法决定最终的分类结果，即将得票权值最高的分类结果<img file="130410dest_path_image026.GIF" wi="21" he="15" />其中<img file="489716dest_path_image027.GIF" wi="134" he="17" />作为这M个分类器组成的集成分类器对该样本分类的最终结果。
地址	300387 天津市西青区宾水西道399号天津工业大学