主权项 |
1.一组微阵列误标记样本检测方法,其特征为利用数据扰动对回归模型的影响来识别微阵列数据中的疑似误标记样本,在构造扰动回归矩阵的基础上通过计算扰动影响值来识别基因芯片数据中的误标记样本,具体包括总体扰动影响值识别法、综合扰动影响值识别法及渐进修正法;(1)对于n个样本的误标记检测,扰动回归矩阵Loopr是一个n×n的实数值矩阵,元素Loopr[i,j]代表在扰动样本x<sub>i</sub>类标的情况下,即令y<sub>i</sub>=-y<sub>i</sub>时,以x<sub>j</sub>作为测试样本,其他样本作为训练集时,检测方法对于样本x<sub>j</sub>类标的回归预测值<img file="FSB00000645615600011.GIF" wi="125" he="62" />元素Loopr[i,i]代表无数据扰动的情况下样本x<sub>i</sub>类标的回归预测值;(2)扰动影响值q<sub>ij</sub>代表在扰动样本x<sub>i</sub>类标的情况下,回归模型在测试样本x<sub>j</sub>类标时所受到的影响,q<sub>ij</sub>定义为无数据扰动时样本x<sub>j</sub>的回归预测值与扰动x<sub>i</sub>类标时x<sub>j</sub>的回归预测值之差,具体为:q<sub>ij</sub>=Loopr[j,j]-Loopr[i,j](3)总体扰动影响值识别法包含步骤(I),(II)和(III):(I)构造扰动回归矩阵Loopr;(II)对于每一个样本x<sub>j</sub>,计算其总体扰动影响值Q<sub>j</sub>,具体定义为:<maths num="0001"><![CDATA[<math><mrow><msub><mi>Q</mi><mi>j</mi></msub><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>q</mi><mi>ij</mi></msub><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><mi>Loopr</mi><mo>[</mo><mi>j</mi><mo>,</mo><mi>j</mi><mo>]</mo><mo>-</mo><mi>Loopr</mi><mo>[</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>]</mo><mo>)</mo></mrow></mrow></math>]]></maths>(III)若y<sub>j</sub>×Q<sub>j</sub><0,判定样本x<sub>j</sub>为误标记样本;(4)综合扰动影响值识别法包含步骤(A),(B)和(C):(A)构造扰动回归矩阵Loopr;(B)对于每一个样本x<sub>i</sub>,计算其总体扰动影响值F<sub>i</sub>,具体定义为:<maths num="0002"><![CDATA[<math><mrow><msub><mi>F</mi><mi>i</mi></msub><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>×</mo><msub><mi>q</mi><mi>ij</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>y</mi><mi>j</mi></msub><mrow><mo>(</mo><mi>Loopr</mi><mo>[</mo><mi>j</mi><mo>,</mo><mi>j</mi><mo>]</mo><mo>-</mo><mi>Loopr</mi><mo>[</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>]</mo><mo>)</mo></mrow></mrow></math>]]></maths>(C)若F<sub>i</sub><0,判定样本x<sub>i</sub>为误标记样本;(5)渐进修正法包括步骤(a),(b),(c),(d)和(e):(a)构建扰动回归矩阵Loopr,令V<sub>min</sub>=n,令修正类标向量y’等于原类标向量y;(b)使用综合扰动影响值识别法得到疑似误标记样本集合S;(c)对S中的每个样本x<sub>i</sub>进行评估,计算样本x<sub>i</sub>的总评估量V<sub>i</sub>;(d)取总评估量最小的样本记为x<sub>k</sub>,其总评估量为V<sub>k</sub>,若V<sub>k</sub>>V<sub>min</sub>,则S即为最终结果,否则令V<sub>min</sub>=V<sub>k</sub>;(e)在y’中翻转x<sub>k</sub>类标,令S为对扰动回归矩阵Loopr和y’使用综合扰动影响值识别法得到的误标记样本集合,如果V<sub>k</sub>>0,则跳转至步骤(c),否则S即为最终结果。 |