发明名称 一种测定待测基因组区域表达水平的方法及系统
摘要 本发明提供了一种检测基因组区域表达水平(RPKM)的方法和系统,采用本发明,一方面,可以检测出整个基因的表达水平及其所有外显子各自的表达水平;另一个方面可以检测出同一个基因不同的同源异构体的表达水平及其所有外显子各自的表达水平;最后还可以检测出基因组任意指定区间的表达水平。
申请公布号 CN103984879B 申请公布日期 2017.03.29
申请号 CN201410096063.1 申请日期 2014.03.14
申请人 中国科学院上海生命科学研究院 发明人 杨力;朱闪闪;薛尉
分类号 G06F19/22(2011.01)I;G06F19/18(2011.01)I 主分类号 G06F19/22(2011.01)I
代理机构 上海一平知识产权代理有限公司 31266 代理人 马莉华;崔佳佳
主权项 一种测定待测基因组区域表达水平的方法,其特征在于,包括以下步骤:(1)对待测样本进行测序,获得包含待测基因组区域转录本的转录组测序数据;(2)将获得的转录组测序数据与同一物种的基因组序列进行比对;(3)对定位到基因组的转录组测序读段进行筛选,所述筛选包括去除测序质量≤99.9%的转录组测序读段;(4)将筛选后的转录组测序读段,按照其定位到基因组上的起始位置进行排序,并对排序结果建立索引;(5)根据待测基因组区域的位置信息,构建出计算RPKM的基因注释文件;(6)计算能够映射到基因组上的所有测序读段的总数M;(7)根据上述步骤(5)构建的基因注释文件计算出定位至待测DNA区间上所有测序读段的总数R;(8)根据上述步骤(5)构建的基因注释文件,计算出待测DNA区间所有被测序读段定位的序列长度L;和(9)根据上述步骤(6)‑(8)的计算结果,将步骤(7)得到的R除以步骤(6)得到的M与步骤(8)得到的L乘以10<sup>9</sup>,得待测基因组区域的RPKM值,即为待测基因组区域的表达水平,计算公式如下,<maths num="0001"><math><![CDATA[<mrow><mi>R</mi><mi>P</mi><mi>K</mi><mi>M</mi><mo>=</mo><mfrac><mi>R</mi><mrow><mi>M</mi><mo>&times;</mo><mi>L</mi></mrow></mfrac><mo>&times;</mo><msup><mn>10</mn><mn>9</mn></msup><mo>;</mo></mrow>]]></math><img file="FDA0001141072810000011.GIF" wi="613" he="164" /></maths>其中,所述待测基因组区域包含N个同源异构体,且N≥2;并且,在测定过程中还包括步骤:将各同源异构体的所有外显子进行整合,对于重复的序列区间,仅保留单一序列,从而将同一待测基因组区域中的不同同源异构体的外显子整合成单一序列,将该单一序列的长度作为计算该基因组区域表达水平时的序列长度L。
地址 200031 上海市徐汇区岳阳路319号