发明名称 一组微阵列误标记样本检测方法
摘要 本发明涉及一组用于微阵列数据误标记样本检测的计算方法,属于计算生物学领域。本发明利用数据扰动对回归模型的影响来识别微阵列数据中的疑似误标记样本,将其应用于疾病的基因表达数据预处理,可降低错误标记所带来的影响和损失。本发明建立了描述样本类标和样本基因表达向量之间关系的同归模型,而后通过依次扰动各样本的类标,建立扰动回归矩阵,进而捕获这些扰动对回归模型的影响。本发明定义了三种扰动影响指标:扰动影响值、总体扰动影响值和综合扰动影响值。在此基础上给出了三种针对微阵列数据的误标记样本检测方法:总体扰动影响值识别法,综合扰动影响值判别法和渐进修正法。
申请公布号 CN101515313B 申请公布日期 2012.02.01
申请号 CN200910066709.0 申请日期 2009.03.27
申请人 吉林大学 发明人 梁艳春;张琛;吴春国;周柚;王岩;杜伟
分类号 G06F19/20(2011.01)I;G06K9/62(2006.01)I 主分类号 G06F19/20(2011.01)I
代理机构 代理人
主权项 1.一组微阵列误标记样本检测方法,其特征为利用数据扰动对回归模型的影响来识别微阵列数据中的疑似误标记样本,在构造扰动回归矩阵的基础上通过计算扰动影响值来识别基因芯片数据中的误标记样本,具体包括总体扰动影响值识别法、综合扰动影响值识别法及渐进修正法;(1)对于n个样本的误标记检测,扰动回归矩阵Loopr是一个n×n的实数值矩阵,元素Loopr[i,j]代表在扰动样本x<sub>i</sub>类标的情况下,即令y<sub>i</sub>=-y<sub>i</sub>时,以x<sub>j</sub>作为测试样本,其他样本作为训练集时,检测方法对于样本x<sub>j</sub>类标的回归预测值<img file="FSB00000645615600011.GIF" wi="125" he="62" />元素Loopr[i,i]代表无数据扰动的情况下样本x<sub>i</sub>类标的回归预测值;(2)扰动影响值q<sub>ij</sub>代表在扰动样本x<sub>i</sub>类标的情况下,回归模型在测试样本x<sub>j</sub>类标时所受到的影响,q<sub>ij</sub>定义为无数据扰动时样本x<sub>j</sub>的回归预测值与扰动x<sub>i</sub>类标时x<sub>j</sub>的回归预测值之差,具体为:q<sub>ij</sub>=Loopr[j,j]-Loopr[i,j](3)总体扰动影响值识别法包含步骤(I),(II)和(III):(I)构造扰动回归矩阵Loopr;(II)对于每一个样本x<sub>j</sub>,计算其总体扰动影响值Q<sub>j</sub>,具体定义为:<maths num="0001"><![CDATA[<math><mrow><msub><mi>Q</mi><mi>j</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>q</mi><mi>ij</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><mi>Loopr</mi><mo>[</mo><mi>j</mi><mo>,</mo><mi>j</mi><mo>]</mo><mo>-</mo><mi>Loopr</mi><mo>[</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>]</mo><mo>)</mo></mrow></mrow></math>]]></maths>(III)若y<sub>j</sub>×Q<sub>j</sub><0,判定样本x<sub>j</sub>为误标记样本;(4)综合扰动影响值识别法包含步骤(A),(B)和(C):(A)构造扰动回归矩阵Loopr;(B)对于每一个样本x<sub>i</sub>,计算其总体扰动影响值F<sub>i</sub>,具体定义为:<maths num="0002"><![CDATA[<math><mrow><msub><mi>F</mi><mi>i</mi></msub><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>&times;</mo><msub><mi>q</mi><mi>ij</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>y</mi><mi>j</mi></msub><mrow><mo>(</mo><mi>Loopr</mi><mo>[</mo><mi>j</mi><mo>,</mo><mi>j</mi><mo>]</mo><mo>-</mo><mi>Loopr</mi><mo>[</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>]</mo><mo>)</mo></mrow></mrow></math>]]></maths>(C)若F<sub>i</sub><0,判定样本x<sub>i</sub>为误标记样本;(5)渐进修正法包括步骤(a),(b),(c),(d)和(e):(a)构建扰动回归矩阵Loopr,令V<sub>min</sub>=n,令修正类标向量y’等于原类标向量y;(b)使用综合扰动影响值识别法得到疑似误标记样本集合S;(c)对S中的每个样本x<sub>i</sub>进行评估,计算样本x<sub>i</sub>的总评估量V<sub>i</sub>;(d)取总评估量最小的样本记为x<sub>k</sub>,其总评估量为V<sub>k</sub>,若V<sub>k</sub>>V<sub>min</sub>,则S即为最终结果,否则令V<sub>min</sub>=V<sub>k</sub>;(e)在y’中翻转x<sub>k</sub>类标,令S为对扰动回归矩阵Loopr和y’使用综合扰动影响值识别法得到的误标记样本集合,如果V<sub>k</sub>>0,则跳转至步骤(c),否则S即为最终结果。
地址 130012 吉林省长春市前进大街2699号