发明名称 一种机器学中的分类器集成方法
摘要 本发明提供了一种机器学中的分类器集成方法,它使用RandomForest算法产生的基分类器作为新的算法的基分类器。使用L1_Magic算法对这些原始分类器的权值进行优化,充分利用了各个基分类器之间的差异性,使得集合分类器对训练集中的每一个样本分类正确的可能性一致。使用新的集成分类器采用带权值的投票方式对测试集进行分类,进而提高了分类的正确率。与RandomForest算法相比,该发明的最大的优点在于充分利用了各个基分类器之间的差异性,使得集合分类器对样本数据的分类正确率有了提高。同时也完善了对人工智能领域中如何使用多样性/差异性提高集成分类器效果。
申请公布号 CN103632168B 申请公布日期 2017.01.18
申请号 CN201310655891.X 申请日期 2013.12.09
申请人 天津工业大学 发明人 陈科;朱波
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 天津市杰盈专利代理有限公司 12207 代理人 朱红星
主权项 一种机器学习中的分类器集成方法,所述分类器集成方法包括基分类器的产生、给予基分类器优化后的权重、采用带权值的投票方法对数据进行分类;利用RandomForest算法生成的不同的多棵决策树分类器作为新的算法的基分类器,采用L1_Magic算法对基分类器的权重进行优化,充分利用基分类器之间的差异性,使得集成分类器达到更优的性能,其特征在于所述方法包括以下步骤:(1)第一步:对给定的数据样本集进行分割;将给定的含有N个样本的数据集按9:1分割比例随机的划分成两份,分别作为训练集和测试集,其样本数目分别标记为<img file="95196dest_path_image001.GIF" wi="59" he="20" />(2)第二步:在训练集上进行模型的学习,得到不同的分类器;使用RandomForest算法在训练集上进行分类模型的学习,从而可以生成M个基分类器;(3)第三步:给予第二步学习得到的分类器相应的权重系数,分别使用第二步中得到的M个分类器对第一步中得到的训练集中的<img file="933708dest_path_image002.GIF" wi="15" he="16" />个样本进行分类,其分类结果标记为<img file="916707dest_path_image003.GIF" wi="26" he="15" />其中<img file="764446dest_path_image004.GIF" wi="265" he="19" />如果分类正确,<img file="516502dest_path_image005.GIF" wi="159" he="21" />从而可以得<img file="791494dest_path_image006.GIF" wi="58" he="16" />阶矩阵A;分别使用第二步中得到的M个分类器对第一步中得到的训练集中的<img file="996211dest_path_image007.GIF" wi="15" he="16" />个样本进行分类,可以得到每一个分类器在训练集上分类的正确率<img file="382061dest_path_image008.GIF" wi="18" he="16" />其中<img file="254203dest_path_image009.GIF" wi="135" he="16" />组成的集合,记为向量<img file="434517dest_path_image010.GIF" wi="70" he="18" />个具有特定正确率<img file="392109dest_path_image011.GIF" wi="8" he="9" />的分类器相互独立,则它们组成的集合对训练数据进行分类正确的结果x服从于二项分布,<img file="66804dest_path_image012.GIF" wi="94" he="19" />那么这n个分类器组成的集合对样本分类正确的概率<img file="777140dest_path_image013.GIF" wi="106" he="29" />从而可以求得与正确率为a的分类器等价的正确率为b的分类器的个数,以M个分类器中在训练集上分类的正确率最大的分类器为基准,从而可以求得每一个与之等价的分类器的数目<img file="144667dest_path_image014.GIF" wi="25" he="19" />其中<img file="573243dest_path_image015.GIF" wi="128" he="16" />组成的集合,记为向量<img file="51629dest_path_image016.GIF" wi="77" he="18" />中的每一项进行标准化得到新的向量<img file="622331dest_path_image017.GIF" wi="23" he="16" />标准化的过程为<img file="895180dest_path_image018.GIF" wi="107" he="54" />个分类器的权重系数<img file="76632dest_path_image019.GIF" wi="25" he="15" />其中<img file="93129dest_path_image020.GIF" wi="132" he="16" />组成的集合记为向量<img file="778058dest_path_image021.GIF" wi="27" he="17" />为了使得这M个分类器组成的集合具有多样性,进而提高集成分类器的正确率,可以对权重系数进行优化,即求得最优的<img file="487388dest_path_image022.GIF" wi="224" he="21" />值最小,其中需要满足的条件是<img file="890556dest_path_image023.GIF" wi="171" he="19" />采用L1_Magic算法可以求得近似最优的<img file="710744dest_path_image024.GIF" wi="26" he="17" />第四步:集成第二步得到的分类器,对测试集进行分类;将给定数据样本的类标号的数目记为L;依次使用第二步中得到的M个分类器对第一步中得到的测试集中的<img file="250179dest_path_image025.GIF" wi="21" he="18" />个样本进行分类,可以得到对每一个样本都有M个分类结果,采用带权值的投票方法决定最终的分类结果,即将得票权值最高的分类结果<img file="130410dest_path_image026.GIF" wi="21" he="15" />其中<img file="489716dest_path_image027.GIF" wi="134" he="17" />作为这M个分类器组成的集成分类器对该样本分类的最终结果。
地址 300387 天津市西青区宾水西道399号天津工业大学