主权项 |
一种基于动态样本选择集成的生物信息识别方法,包括如下过程:(1)找出一些带标记的生物信息数据作为训练集X;(2)在找出的训练集中分出大类样本和小类样本,并分别计算大类样本和小类样本的个数lb和ls;(3)采用训练集划分的方法取得K组平衡的数据集,每组平衡数据集包含ls*ρ个大类样本和ls*ρ个小类样本,其中K为要设定的基分类器的个数,ρ为小类样本的采样率;(4)将得到的K组数据集随机分到K个基分类器中,作为基分类器上的初始训练集xtrn;(5)在总的训练集中排除掉初始训练集xtrn,得到各基分类器上的初始验证集,记为xte;(6)基分类器选用KMP,用动态样本选择的方法进行循环训练,将每次训练得到的决策函数在测试集上进行测试:6a)对基分类器上的训练集xtrn进行训练,得到决策函数Ck,t,利用决策函数Ck,t对测试集测试,得到决策值:hk,t(x)∈{‑1,+1},k=1,2,…,K其中,k为代表了第k个基分类器,t为在该基分类器上的训练轮数,x为测试集中的一个数据点;6b)利用决策函数Ck,t对训练集X测试,并计算当前轮决策函数的错误率ek,t:ek,t=(kk*Nerr_s+Nerr_b)/(kk*ls+lb)其中,kk为调节总正确率与小类样本正确率之间大小关系的代价敏感因子,Nerr_b和Nerr_s分别为训练集X中大类样本和小类样本被分错的个数;6c)根据当前轮决策函数的错误率ek,t,计算当前轮决策函数的权重αk,t: <mrow> <msub> <mi>α</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mi>log</mi> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mfrac> <mrow> <mo>(</mo> <mn>0</mn> <mo><</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo><</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>></mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>6d)在验证集xte上验证Ck,t的效果,将验证集中分错的样本点按被错分的容易程度从大到小排序,该被错分的容易程度表示错分样本决策值求绝对值后的值;6e)如果错分样本个数大于设定的阈值q,则从排列好的错分样本中选择前q个,将它们从验证集xte中取出放入训练集xtrn中;如果错分样本个数小于q,则将所有错分样本从xte取出放入xtrn中;6f)当验证集xte中的样本全部分对或者验证集xte为空时,循环停止,否则返回到步骤6a)中继续执行;(7)将各分类器上每轮的决策值hk,t(x)加权集成,得到最终的识别结果: <mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>sign</mi> <mrow> <mo>(</mo> <munderover> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <munder> <mi>Σ</mi> <mi>t</mi> </munder> <msub> <mtext>α</mtext> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <msub> <mi>h</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow>其中,hk,t(x)为第k个基分类器t轮情况下的决策值,αk,t是第k个基分类器t轮情况下决策函数的权重。 |