基于动态样本选择集成的生物信息识别方法,申请号CN201010013627.2-传众专利搜索

发明名称	基于动态样本选择集成的生物信息识别方法
摘要	本发明公开了一种基于动态样本选择集成的生物信息识别方法，主要解决因数据不平衡带来的对小类样本正确识别率低的问题。处理此问题的实现过程是：(1)利用训练集划分的方法将训练集划分为一系列的平衡子数据集；(2)将得到的平衡子数据集分到各自的基分类器中作为初始训练集；(3)在各基分类器上利用动态样本选择的方法循环训练；(4)用每次训练得到的决策函数对测试集测试得到决策结果；(5)利用代价敏感思想对决策结果求权重；(6)对各次的决策结果加权集成得到最终的识别结果。本发明与现有的技术相比具有准确度高，计算复杂度低，可根据需要调节正确率与查全率之间大小关系的优点，用于识别生物信息和网络入侵、金融欺诈和反垃圾邮件的检测。
申请公布号	CN101763466B	申请公布日期	2011.08.24
申请号	CN201010013627.2	申请日期	2010.01.20
申请人	西安电子科技大学	发明人	缑水平;焦李成;杨辉;朱虎明;吴建设;杨淑媛;侯彪;张佳
分类号	G06F19/00(2006.01)I;G06F19/10(2011.01)I	主分类号	G06F19/00(2006.01)I
代理机构	陕西电子工业专利中心 61205	代理人	王品华;朱红星
主权项	一种基于动态样本选择集成的生物信息识别方法，包括如下过程：(1)找出一些带标记的生物信息数据作为训练集X；(2)在找出的训练集中分出大类样本和小类样本，并分别计算大类样本和小类样本的个数lb和ls；(3)采用训练集划分的方法取得K组平衡的数据集，每组平衡数据集包含lsρ个大类样本和lsρ个小类样本，其中K为要设定的基分类器的个数，ρ为小类样本的采样率；(4)将得到的K组数据集随机分到K个基分类器中，作为基分类器上的初始训练集xtrn；(5)在总的训练集中排除掉初始训练集xtrn，得到各基分类器上的初始验证集，记为xte；(6)基分类器选用KMP，用动态样本选择的方法进行循环训练，将每次训练得到的决策函数在测试集上进行测试：6a)对基分类器上的训练集xtrn进行训练，得到决策函数Ck，t，利用决策函数Ck，t对测试集测试，得到决策值：hk，t(x)∈{‑1，+1}，k＝1，2，…，K其中，k为代表了第k个基分类器，t为在该基分类器上的训练轮数，x为测试集中的一个数据点；6b)利用决策函数Ck，t对训练集X测试，并计算当前轮决策函数的错误率ek，t：ek，t＝(kkNerr_s+Nerr_b)/(kkls+lb)其中，kk为调节总正确率与小类样本正确率之间大小关系的代价敏感因子，Nerr_b和Nerr_s分别为训练集X中大类样本和小类样本被分错的个数；6c)根据当前轮决策函数的错误率ek，t，计算当前轮决策函数的权重αk，t： <mrow> <msub> <mi>α</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mi>log</mi> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> </mfrac> <mrow> <mo>(</mo> <mn>0</mn> <mo><</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo><</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>></mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>6d)在验证集xte上验证Ck，t的效果，将验证集中分错的样本点按被错分的容易程度从大到小排序，该被错分的容易程度表示错分样本决策值求绝对值后的值；6e)如果错分样本个数大于设定的阈值q，则从排列好的错分样本中选择前q个，将它们从验证集xte中取出放入训练集xtrn中；如果错分样本个数小于q，则将所有错分样本从xte取出放入xtrn中；6f)当验证集xte中的样本全部分对或者验证集xte为空时，循环停止，否则返回到步骤6a)中继续执行；(7)将各分类器上每轮的决策值hk，t(x)加权集成，得到最终的识别结果： <mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>sign</mi> <mrow> <mo>(</mo> <munderover> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <munder> <mi>Σ</mi> <mi>t</mi> </munder> <msub> <mtext>α</mtext> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <msub> <mi>h</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow>其中，hk，t(x)为第k个基分类器t轮情况下的决策值，αk，t是第k个基分类器t轮情况下决策函数的权重。
地址	710071 陕西省西安市太白南路2号