发明名称 一种提取多种基因集合特征表达模式的方法
摘要 本发明公开了一种提取多种基因集合特征表达模式的方法,包括以下步骤:输入芯片数据;判断基因表达谱芯片所含基因所属的基因集合;判断每一个基因集合中基因的个数是否在基因集合容量大小设置的范围之内,如果判断结果为否,则抛弃此基因集合;否则,执行下一步;计算基因集合的单态显著性和多态显著性;对原始p值进行校正;判断基因集合的单态显著性和多态显著性是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果。本发明方法能够有效识别多种特征表达模式,甄别无效的干扰噪音,大大提高了基因表达谱在实际应用中的价值。
申请公布号 CN101565747B 申请公布日期 2012.11.28
申请号 CN200910032863.6 申请日期 2009.06.04
申请人 南京大学 发明人 顾祖光;王进;王军玲;李捷;高翔
分类号 C12Q1/68(2006.01)I 主分类号 C12Q1/68(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 柏尚春
主权项 1.一种提取多种基因集合特征表达模式的方法,其特征在于,包括以下步骤:步骤(1),输入芯片数据,设置表达谱芯片所含基因的类型,物种名称,基因集合数据库,基因集合容量大小的上限和下限;步骤(2),判断基因表达谱芯片所含基因所属的基因集合;步骤(3),判断每一个基因集合中基因的个数是否在基因集合容量大小设置的范围之内,如果判断结果为否,则抛弃此基因集合;否则,执行下一步;步骤(4),计算基因集合的单态显著性和多态显著性;步骤(5),对计算出的p值进行多假设检验的FDR控制,即对原始p值进行校正;步骤(6),根据设定的修正后的p值的阈值,判断基因集合的单态显著性和多态显著性是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果;步骤(4)中计算基因集合的单态显著性和多态显著性具体包括以下步骤:(11)基因表达值的奇异值的剔除;(12)计算基因集合中每个基因经过双样本t检验之后的t值;(13)分别将原始芯片数据作归一化处理;(14)计算表达变化率概率密度分布;(15)计算每个基因的上调贡献率和下调贡献率;(16)计算基因集合的上调贡献率和下调贡献率;(17)对原始芯片数据进行随机重排,计算在零假设下基因集合上调贡献率和下调贡献率的分布;步骤(13)中所述的归一化处理公式为:<maths num="0001"><![CDATA[<math><mrow><msubsup><mi>x</mi><mi>i</mi><mo>&prime;</mo></msubsup><mo>=</mo><mfrac><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>-</mo><mi>&mu;</mi></mrow><msqrt><msup><mi>S</mi><mn>2</mn></msup></msqrt></mfrac><mo>,</mo></mrow></math>]]></maths><maths num="0002"><![CDATA[<math><mrow><msubsup><mi>y</mi><mi>j</mi><mo>&prime;</mo></msubsup><mo>=</mo><mfrac><mrow><msub><mi>y</mi><mi>j</mi></msub><mo>-</mo><mi>&mu;</mi></mrow><msqrt><msup><mi>S</mi><mn>2</mn></msup></msqrt></mfrac></mrow></math>]]></maths>其中,对于表达谱芯片上的每个基因,在控制组class 1和实验组class 2中分别重复测量表达值,在控制组做n<sub>1</sub>次,在实验组做n<sub>2</sub>次,基因在控制组class 1和实验组class 2中的表达值向量分别记为<img file="FSB00000859962000013.GIF" wi="244" he="72" />和<img file="FSB00000859962000014.GIF" wi="292" he="75" />μ和S<sup>2</sup>为向量<img file="FSB00000859962000015.GIF" wi="390" he="67" />的均值和方差;步骤(14)包括以下步骤:经过归一化后的表达值数据,实验组class 2中每一个表达值数据分别减去控制组class 1中每一个表达值数据,将其差值定义为表达变化率;对于表达变化率,拟合表达变化率的概率密度分布;步骤(15)用表达变化率作为一阶权重,其中每个基因的上调贡献率和下调贡献率计算公式分别为:<maths num="0003"><![CDATA[<math><mrow><msup><mi>E</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msup><mo>=</mo><msubsup><mo>&Integral;</mo><mn>0</mn><mrow><mo>+</mo><mo>&infin;</mo></mrow></msubsup><mi>r</mi><mo>&CenterDot;</mo><msub><mi>f</mi><mrow><mi>r</mi><mo>></mo><mn>0</mn></mrow></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mi>dr</mi></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mrow><msup><mi>E</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msup><mo>=</mo><msubsup><mo>&Integral;</mo><mrow><mo>-</mo><mo>&infin;</mo></mrow><mn>0</mn></msubsup><mi>r</mi><mo>&CenterDot;</mo><msub><mi>f</mi><mrow><mi>r</mi><mo>&lt;</mo><mn>0</mn></mrow></msub><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mi>dr</mi></mrow></math>]]></maths>其中,E<sup>(+)</sup>和E<sup>(-)</sup>分别为基因的上调贡献率和下调贡献率,r为表达变化率,f<sub>r>0</sub>(r)和f<sub>r<0</sub>(r)分别为概率密度分布函数f(r)大于0和小于0的两个部分;步骤(16)中基因集合的上调贡献率和下调贡献率为属于此基因集合中所有基因上调贡献率和下调贡献率的经过奇异值处理之后的加权算术平均值;步骤(17)中基因集合的单态显著性和多态显著性的计算方法为:当<maths num="0005"><![CDATA[<math><mrow><mrow><mo>(</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>&Element;</mo><mrow><mo>(</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>></mo><msubsup><mi>E</mi><mrow><mi>S</mi><mrow><mo>(</mo><mi>media</mi><mo>)</mo></mrow></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mi>I</mi><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>&lt;</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mrow><mo>(</mo><mi>media</mi><mo>)</mo></mrow></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mi>I</mi><mrow><mo>(</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>/</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>></mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>时,<maths num="0006"><![CDATA[<math><mrow><msub><mi>P</mi><mi>mono</mi></msub><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>E</mi><mi>S</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>></mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>E</mi><mi>S</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>&lt;</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>当<maths num="0007"><![CDATA[<math><mrow><mrow><mo>(</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>&Element;</mo><mrow><mo>(</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>&lt;</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mrow><mo>(</mo><mi>media</mi><mo>)</mo></mrow></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mi>I</mi><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>></mo><msubsup><mi>E</mi><mrow><mi>S</mi><mrow><mo>(</mo><mi>media</mi><mo>)</mo></mrow></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mi>I</mi><mrow><mo>(</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>/</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>></mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>时,<maths num="0008"><![CDATA[<math><mrow><msub><mi>P</mi><mi>mono</mi></msub><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>E</mi><mi>S</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>&lt;</mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>E</mi><mi>S</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>></mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>其余的情况,<maths num="0009"><![CDATA[<math><mrow><msub><mi>P</mi><mi>poly</mi></msub><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msubsup><mi>E</mi><mi>S</mi><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>></mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>+</mo><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>E</mi><mi>S</mi><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>></mo><msubsup><mi>E</mi><mrow><mi>S</mi><mn>0</mn></mrow><mrow><mo>(</mo><mo>-</mo><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>;</mo></mrow></math>]]></maths>其中P<sub>mono</sub>和P<sub>poly</sub>分别表示基因集合中基因表达的单态显著性和多态显著性,<img file="FSB00000859962000028.GIF" wi="76" he="60" />和<img file="FSB00000859962000029.GIF" wi="77" he="61" />为随机变量,分别表示零假设下基因集合S的上调贡献率和下调贡献率,<img file="FSB000008599620000210.GIF" wi="77" he="61" />和<img file="FSB000008599620000211.GIF" wi="76" he="60" />表示实际的基因集合S的上调贡献率和下调贡献率,<img file="FSB000008599620000212.GIF" wi="146" he="64" />和<img file="FSB000008599620000213.GIF" wi="145" he="64" />表示通过随机重排模拟零假设下<img file="FSB000008599620000214.GIF" wi="76" he="60" />和<img file="FSB000008599620000215.GIF" wi="77" he="60" />的中值。
地址 210093 江苏省南京市汉口路22号南京大学生命科学学院生化系蒙民伟楼1813室