一种生物标志物筛选方法,申请号CN201510207807.7-传众专利搜索

发明名称	一种生物标志物筛选方法
摘要	本发明为一种生物信息的数据挖掘方法，属于生物、计算机与数学交叉技术领域。首先根据特征在样本上的分布，计算重叠区域权重O，再计算SVM权重和变量关系得分。MBS采用特征的SVM权重\|w<sub>i</sub>\|、重叠区域权值OA<sub>i</sub>和变量关系得分值Score<sub>i</sub>综合评价该特征，也作为排名依据，<img file="DDA0000706665510000011.GIF" wi="939" he="88" />确定参数α<sub>1</sub>的最优值后，确定参数α<sub>2</sub>的值。本发明研究了变量关系得分，把它和变量重叠区域权值、特征权重一起考察，提供了一种特征综合评价的新方法。最终通过改善特征选择性能，帮助发现生物标志信息。
申请公布号	CN104866863A	申请公布日期	2015.08.26
申请号	CN201510207807.7	申请日期	2015.04.27
申请人	大连理工大学	发明人	王君;林晓惠;丁翔飞
分类号	G06K9/62(2006.01)I	主分类号	G06K9/62(2006.01)I
代理机构	大连理工大学专利中心 21200	代理人	李宝元;梅洪玉
主权项	一种生物标志物筛选方法，其特征在于以下步骤：(1)设当前特征集合为F，初始时，F包含所有特征，FS为空；maxACC＝0，r＝5；(2)根据特征在样本上的分布，计算每一特征f<sub>i</sub>∈F的重叠度OA<sub>i</sub>；(3)设定α<sub>2</sub>＝0，即不考虑变量关系得分；(4)根据F构建SVM分类模型，计算特征集合F的5倍交叉验证的分类准确率ACC，计算每一特征f<sub>i</sub>∈F的\|w<sub>i</sub>\|；(5)若ACC>maxACC，那么maxACC＝ACC，FS＝F；(6)对F中的每一变量f<sub>i</sub>，计算其关系得分Score<sub>i</sub>；(7)计算特征的综合得分E(i)：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>α</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>\|</mo><msub><mi>w</mi><mtext>i</mtext></msub><mo>\|</mo><mo>+</mo><msub><mi>α</mi><mn>1</mn></msub><mo>×</mo><mi>O</mi><msub><mi>A</mi><mi>i</mi></msub><mo>+</mo><msub><mi>α</mi><mn>2</mn></msub><mo>×</mo><msqrt><mi>Scor</mi><msub><mi>e</mi><mi>i</mi></msub></msqrt></mrow>]]></math><img file="FDA0000706665490000011.GIF" wi="907" he="91" /></maths>其中，E(i)是特征f<sub>i</sub>的综合得分，\|w<sub>i</sub>\|是SVM计算的特征权重，OA<sub>i</sub>是特征f<sub>i</sub>的重叠度，Score<sub>i</sub>是f<sub>i</sub>的关系得分，α<sub>1</sub>、α<sub>2</sub>是参数，分别用于调整特征重叠度和变量关系得分在变量综合评价中的比例，0≤α<sub>1</sub><1，0≤α<sub>2</sub><1；(8)MBS使用E(i)综合评价当前特征集中每一特征的重要性，删除当前特征集中综合评价权重低的r％特征，0<r<100，重复步骤(4)、(5)、(6)、(7)和(8)，直到F为空；(9)α<sub>1</sub>在[0,1)的范围内按照步长0.1步进，令F包含初始时所有输入特征，重复步骤(4)、(5)、(6)、(7)和(8)，计算α<sub>1</sub>在每个步长选择的特征子集，得到“最优”特征子集时对应α<sub>1</sub>的“最优”值；(10)设定α<sub>1</sub>为“最优”取值，α<sub>2</sub>在[0,1)的范围内按步长0.1步进，F为包含初始时所有输入特征，重复步骤(4)、(5)、(6)、(7)和(8)，计算α<sub>2</sub>在每个步长选择的特征子集，得到“最优”特征子集时对应参数α<sub>2</sub>的“最优”取值；(11)输出α<sub>1</sub>“最优”值和α<sub>2</sub>“最优”值时对应的“最优”特征子集FS；所述的变量关系得分Score<sub>i</sub>，计算方法如下：a.对一个c>2类问题，当前特征集合为F，p是F中所含特征数量，按照“一对一”准则划分为c(c‑1)/2个两类问题；在每一个两类问题上，按照TSP方法计算变量f<sub>i</sub>和F中其他变量f<sub>j</sub>的得分Δ<sub>ij</sub>；b.计算在c(c‑1)/2个两类问题上变量f<sub>i</sub>和F中其他变量的关联性的平均得分：<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>Score</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mn>2</mn><mo>×</mo><msqrt><munderover><mi>Σ</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>c</mi><mo>×</mo><mrow><mo>(</mo><mi>c</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>/</mo><mn>2</mn></mrow></munderover><munder><mi>Σ</mi><mrow><msub><mi>f</mi><mi>j</mi></msub><mo>&Element;</mo><mi>F</mi><mo>,</mo><mi>j</mi><mo>&NotEqual;</mo><mi>i</mi></mrow></munder><mrow><msubsup><mi>Δ</mi><mi>ijm</mi><mn>2</mn></msubsup></mrow></msqrt></mrow><mrow><mi>c</mi><mo>×</mo><mrow><mo>(</mo><mi>c</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>×</mo><mrow><mo>(</mo><mi>p</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000706665490000021.GIF" wi="973" he="294" /></maths>其中，Score<sub>i</sub>表示f<sub>i</sub>的变量关系得分；f<sub>j</sub>是当前特征集合中所有除f<sub>i</sub>以外的变量；对f<sub>i</sub>和F中其余的每一变量f<sub>j</sub>计算二者在每一个2类(m∈{1,2,c(c‑1)/2})问题上的TSP得分；Δ<sub>ijm</sub>代表f<sub>i</sub>和f<sub>j</sub>在第m个2类问题上的TSP得分，Δ<sub>ijm</sub>的平方保证TSP得分高的对变量的优势，同时加大TSP得分低的对变量和得分高的对变量的差距；Δ<sub>ijm</sub>平方的和的均值让其数值保持在特征权重\|w<sub>i</sub>\|和重叠度权值OA<sub>i</sub>的数量级上，让MBS建模时均衡考虑将三者作为特征的综合评价。
地址	116024 辽宁省大连市甘井子区凌工路2号