发明名称 一种识别显著差异表达基因集合的方法
摘要 本发明公开了一种识别显著差异表达基因集合的方法,它包括以下步骤:(1)设置和输入数据;(2)将基因归属至各个基因集合;(3)检查每一个基因集合中基因的个数是否大于设置中定义的个数,如果结果为否,则抛弃此基因集合;(4)计算每一个基因集合的表达变化指数;(5)将整张芯片上所有基因作为背景基因,计算背景基因集合的表达变化指数;(6)从背景基因中随机抽样,检验各基因集合E值的显著性;(7)根据设定的E值和p值的阈值,输出符合阈值要求的基因集合作为识别结果。本发明方法对大基因集合识别效果优良,保证了在较少检测次数的情况下有较高的准确率,大大提高了基因表达值在实际应用中的价值。
申请公布号 CN101250584B 申请公布日期 2012.06.13
申请号 CN200810019862.3 申请日期 2008.03.19
申请人 南京大学 发明人 王进;顾祖光;杨嵘;张辰宇
分类号 C12Q1/68(2006.01)I;G06F19/18(2011.01)I 主分类号 C12Q1/68(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 柏尚春
主权项 一种识别显著差异表达基因集合的方法,其特征在于,它包括以下步骤:(1)设置和输入芯片数据;(2)将基因表达谱芯片所含基因归属至各个基因集合;(3)判断每一个基因集合中基因的个数是否大于设置中定义的个数,如果判断结果为否,则抛弃此基因集合;否则,执行下一步;(4)计算每一个基因集合的表达变化指数,即E’值;(5)将整张芯片上所有基因作为背景基因,按照步骤4的方法计算背景基因集合的表达变化指数;对每一个基因集合去除背景,产生真实的基因集合表达变化指数E值;(6)检验各基因集合E值的显著性;(7)根据设定的E值和p值的阈值,判断是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果;其中,步骤(7)中所述p值为置信度;步骤(4)中计算基因集合的表达变化指数的方法具体包括以下步骤:(11)基因表达值的离散化;(12)计算表达分布的一阶权重得分;(13)计算基因集合的表达变化指数;步骤(12)包括以下步骤:计算上调区和下调区的差异表达离散分布和权重分布得分;对于有重复实验的单样本芯片数据,计算差异表达权重分布后,将所有重复实验中的加权表达值叠加;对于有重复实验的多样本芯片数据,将样本分级并赋予标签值,组合各种标签值的加权表达值;步骤(13)用上调区和下调区得分比值的对数来表示在此集合中的基因表达变化指数;所述的权重分布得分计算使用一阶权重公式为: <mrow> <mi>U</mi> <mo>=</mo> <mover> <mi>&Sigma;</mi> <mrow> <mi>x</mi> <mo>></mo> <mn>0</mn> </mrow> </mover> <mi>x</mi> <mo>&CenterDot;</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>D</mi> <mo>=</mo> <mover> <mi>&Sigma;</mi> <mrow> <mi>x</mi> <mo>&lt;</mo> <mn>0</mn> </mrow> </mover> <mo>|</mo> <mi>x</mi> <mo>|</mo> <mo>&CenterDot;</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow>其中,U为上调区权重分布得分和D为下调区的权重分布得分;P(x)为离散型的表达值分布;其中x>0的部分为上调基因的分布,x<0的部分为下调基因的分布;其中所述的赋予标签值,根据所识别基因集合的要求,样本之间正相关取+1,样本之间负相关取‑1;所述的阈值要求为:基因集合的表达变化指数的绝对值大于1;p值不大于0.05。
地址 210093 江苏省南京市汉口路22号南京大学生命科学学院生化系1813室