发明名称 基于动态样本选择集成的生物信息识别方法
摘要 本发明公开了一种基于动态样本选择集成的生物信息识别方法,主要解决因数据不平衡带来的对小类样本正确识别率低的问题。处理此问题的实现过程是:(1)利用训练集划分的方法将训练集划分为一系列的平衡子数据集;(2)将得到的平衡子数据集分到各自的基分类器中作为初始训练集;(3)在各基分类器上利用动态样本选择的方法循环训练;(4)用每次训练得到的决策函数对测试集测试得到决策结果;(5)利用代价敏感思想对决策结果求权重;(6)对各次的决策结果加权集成得到最终的识别结果。本发明与现有的技术相比具有准确度高,计算复杂度低,可根据需要调节正确率与查全率之间大小关系的优点,用于识别生物信息和网络入侵、金融欺诈和反垃圾邮件的检测。
申请公布号 CN101763466B 申请公布日期 2011.08.24
申请号 CN201010013627.2 申请日期 2010.01.20
申请人 西安电子科技大学 发明人 缑水平;焦李成;杨辉;朱虎明;吴建设;杨淑媛;侯彪;张佳
分类号 G06F19/00(2006.01)I;G06F19/10(2011.01)I 主分类号 G06F19/00(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 王品华;朱红星
主权项 一种基于动态样本选择集成的生物信息识别方法,包括如下过程:(1)找出一些带标记的生物信息数据作为训练集X;(2)在找出的训练集中分出大类样本和小类样本,并分别计算大类样本和小类样本的个数lb和ls;(3)采用训练集划分的方法取得K组平衡的数据集,每组平衡数据集包含ls*ρ个大类样本和ls*ρ个小类样本,其中K为要设定的基分类器的个数,ρ为小类样本的采样率;(4)将得到的K组数据集随机分到K个基分类器中,作为基分类器上的初始训练集xtrn;(5)在总的训练集中排除掉初始训练集xtrn,得到各基分类器上的初始验证集,记为xte;(6)基分类器选用KMP,用动态样本选择的方法进行循环训练,将每次训练得到的决策函数在测试集上进行测试:6a)对基分类器上的训练集xtrn进行训练,得到决策函数Ck,t,利用决策函数Ck,t对测试集测试,得到决策值:hk,t(x)∈{‑1,+1},k=1,2,…,K其中,k为代表了第k个基分类器,t为在该基分类器上的训练轮数,x为测试集中的一个数据点;6b)利用决策函数Ck,t对训练集X测试,并计算当前轮决策函数的错误率ek,t:ek,t=(kk*Nerr_s+Nerr_b)/(kk*ls+lb)其中,kk为调节总正确率与小类样本正确率之间大小关系的代价敏感因子,Nerr_b和Nerr_s分别为训练集X中大类样本和小类样本被分错的个数;6c)根据当前轮决策函数的错误率ek,t,计算当前轮决策函数的权重αk,t: <mrow> <msub> <mi>&alpha;</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mi>log</mi> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mfrac> <mrow> <mo>(</mo> <mn>0</mn> <mo>&lt;</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>&lt;</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>></mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>6d)在验证集xte上验证Ck,t的效果,将验证集中分错的样本点按被错分的容易程度从大到小排序,该被错分的容易程度表示错分样本决策值求绝对值后的值;6e)如果错分样本个数大于设定的阈值q,则从排列好的错分样本中选择前q个,将它们从验证集xte中取出放入训练集xtrn中;如果错分样本个数小于q,则将所有错分样本从xte取出放入xtrn中;6f)当验证集xte中的样本全部分对或者验证集xte为空时,循环停止,否则返回到步骤6a)中继续执行;(7)将各分类器上每轮的决策值hk,t(x)加权集成,得到最终的识别结果: <mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>sign</mi> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <munder> <mi>&Sigma;</mi> <mi>t</mi> </munder> <msub> <mtext>&alpha;</mtext> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <msub> <mi>h</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow>其中,hk,t(x)为第k个基分类器t轮情况下的决策值,αk,t是第k个基分类器t轮情况下决策函数的权重。
地址 710071 陕西省西安市太白南路2号