发明名称 一种生物标志物筛选方法
摘要 本发明为一种生物信息的数据挖掘方法,属于生物、计算机与数学交叉技术领域。首先根据特征在样本上的分布,计算重叠区域权重O,再计算SVM权重和变量关系得分。MBS采用特征的SVM权重|w<sub>i</sub>|、重叠区域权值OA<sub>i</sub>和变量关系得分值Score<sub>i</sub>综合评价该特征,也作为排名依据,<img file="DDA0000706665510000011.GIF" wi="939" he="88" />确定参数α<sub>1</sub>的最优值后,确定参数α<sub>2</sub>的值。本发明研究了变量关系得分,把它和变量重叠区域权值、特征权重一起考察,提供了一种特征综合评价的新方法。最终通过改善特征选择性能,帮助发现生物标志信息。
申请公布号 CN104866863A 申请公布日期 2015.08.26
申请号 CN201510207807.7 申请日期 2015.04.27
申请人 大连理工大学 发明人 王君;林晓惠;丁翔飞
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 大连理工大学专利中心 21200 代理人 李宝元;梅洪玉
主权项 一种生物标志物筛选方法,其特征在于以下步骤:(1)设当前特征集合为F,初始时,F包含所有特征,FS为空;maxACC=0,r=5;(2)根据特征在样本上的分布,计算每一特征f<sub>i</sub>∈F的重叠度OA<sub>i</sub>;(3)设定α<sub>2</sub>=0,即不考虑变量关系得分;(4)根据F构建SVM分类模型,计算特征集合F的5倍交叉验证的分类准确率ACC,计算每一特征f<sub>i</sub>∈F的|w<sub>i</sub>|;(5)若ACC&gt;maxACC,那么maxACC=ACC,FS=F;(6)对F中的每一变量f<sub>i</sub>,计算其关系得分Score<sub>i</sub>;(7)计算特征的综合得分E(i):<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>&alpha;</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>|</mo><msub><mi>w</mi><mtext>i</mtext></msub><mo>|</mo><mo>+</mo><msub><mi>&alpha;</mi><mn>1</mn></msub><mo>&times;</mo><mi>O</mi><msub><mi>A</mi><mi>i</mi></msub><mo>+</mo><msub><mi>&alpha;</mi><mn>2</mn></msub><mo>&times;</mo><msqrt><mi>Scor</mi><msub><mi>e</mi><mi>i</mi></msub></msqrt></mrow>]]></math><img file="FDA0000706665490000011.GIF" wi="907" he="91" /></maths>其中,E(i)是特征f<sub>i</sub>的综合得分,|w<sub>i</sub>|是SVM计算的特征权重,OA<sub>i</sub>是特征f<sub>i</sub>的重叠度,Score<sub>i</sub>是f<sub>i</sub>的关系得分,α<sub>1</sub>、α<sub>2</sub>是参数,分别用于调整特征重叠度和变量关系得分在变量综合评价中的比例,0≤α<sub>1</sub>&lt;1,0≤α<sub>2</sub>&lt;1;(8)MBS使用E(i)综合评价当前特征集中每一特征的重要性,删除当前特征集中综合评价权重低的r%特征,0&lt;r&lt;100,重复步骤(4)、(5)、(6)、(7)和(8),直到F为空;(9)α<sub>1</sub>在[0,1)的范围内按照步长0.1步进,令F包含初始时所有输入特征,重复步骤(4)、(5)、(6)、(7)和(8),计算α<sub>1</sub>在每个步长选择的特征子集,得到“最优”特征子集时对应α<sub>1</sub>的“最优”值;(10)设定α<sub>1</sub>为“最优”取值,α<sub>2</sub>在[0,1)的范围内按步长0.1步进,F为包含初始时所有输入特征,重复步骤(4)、(5)、(6)、(7)和(8),计算α<sub>2</sub>在每个步长选择的特征子集,得到“最优”特征子集时对应参数α<sub>2</sub>的“最优”取值;(11)输出α<sub>1</sub>“最优”值和α<sub>2</sub>“最优”值时对应的“最优”特征子集FS;所述的变量关系得分Score<sub>i</sub>,计算方法如下:a.对一个c&gt;2类问题,当前特征集合为F,p是F中所含特征数量,按照“一对一”准则划分为c(c‑1)/2个两类问题;在每一个两类问题上,按照TSP方法计算变量f<sub>i</sub>和F中其他变量f<sub>j</sub>的得分Δ<sub>ij</sub>;b.计算在c(c‑1)/2个两类问题上变量f<sub>i</sub>和F中其他变量的关联性的平均得分:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>Score</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mn>2</mn><mo>&times;</mo><msqrt><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>c</mi><mo>&times;</mo><mrow><mo>(</mo><mi>c</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>/</mo><mn>2</mn></mrow></munderover><munder><mi>&Sigma;</mi><mrow><msub><mi>f</mi><mi>j</mi></msub><mo>&Element;</mo><mi>F</mi><mo>,</mo><mi>j</mi><mo>&NotEqual;</mo><mi>i</mi></mrow></munder><mrow><msubsup><mi>&Delta;</mi><mi>ijm</mi><mn>2</mn></msubsup></mrow></msqrt></mrow><mrow><mi>c</mi><mo>&times;</mo><mrow><mo>(</mo><mi>c</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>&times;</mo><mrow><mo>(</mo><mi>p</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000706665490000021.GIF" wi="973" he="294" /></maths>其中,Score<sub>i</sub>表示f<sub>i</sub>的变量关系得分;f<sub>j</sub>是当前特征集合中所有除f<sub>i</sub>以外的变量;对f<sub>i</sub>和F中其余的每一变量f<sub>j</sub>计算二者在每一个2类(m∈{1,2,c(c‑1)/2})问题上的TSP得分;Δ<sub>ijm</sub>代表f<sub>i</sub>和f<sub>j</sub>在第m个2类问题上的TSP得分,Δ<sub>ijm</sub>的平方保证TSP得分高的对变量的优势,同时加大TSP得分低的对变量和得分高的对变量的差距;Δ<sub>ijm</sub>平方的和的均值让其数值保持在特征权重|w<sub>i</sub>|和重叠度权值OA<sub>i</sub>的数量级上,让MBS建模时均衡考虑将三者作为特征的综合评价。
地址 116024 辽宁省大连市甘井子区凌工路2号
您可能感兴趣的专利