发明名称 一种基于重复序列识别的全基因组测序数据的拼接方法
摘要 本发明涉及一种基于重复序列识别的全基因组测序数据的拼接方法,首先计算散弹法测序数据中非重复片段和重复片段出现的概率分布,并根据这一概率分布确定重复序列的识别标准,然后用该标准屏蔽重复序列,再根据目标基因组的大小进行分组拼接,将得到的大片段中的N恢复成原有碱基,并利用同一克隆正反向测序的信息找出相关的大片段以及可能出现在它们之间的读数,并将其连接起来,所有能连接的片段都连接以后,再使用正反向测序信息把大片段排好顺序,即得到目标基因组的工作框架图。本发明的方法,具有提高效率、能处理复杂基因组、明显减少错误拼接出现的概率、减少大量前期生物学实验准备等优点。
申请公布号 CN1169967C 申请公布日期 2004.10.06
申请号 CN01134851.8 申请日期 2001.11.16
申请人 北京华大基因研究中心 发明人 李松岗;王俊;盖伊·王;于军;汪建;杨焕明;倪培相;韩玉军;黄显刚;张建国;胡咏武
分类号 C12Q1/68;C12P19/34 主分类号 C12Q1/68
代理机构 北京清亦华知识产权代理事务所 代理人 罗文群
主权项 1、一种基于重复序列识别的全基因组测序数据的拼接方法,其特征在于该方法包括以下步骤:(1)设定一个最小的DNA片段长度为15bp-20bp,计算散弹法测序数据中非重复片段出现的概率分布:下列公式中各参数的含意为:G:基因组总长,L:测序平均有效读长,N:成功测序反应数,F:识别最小片段长度,定义一个随机变量Y<sub>ik</sub>描述用散弹法对全基因组测序中上述指定长度DNA片段出现K次的事件:<img file="C011348510002C1.GIF" wi="1087" he="142" />若某点开始的片段出现次数为k,则有k个测序片段的起点应在基因组上[I-L+F,i]区间内,而其它N-k个测序片段的起点不在此区间内,这一区间的长度为L-F,若所有测序片段起点在基因组上随机分布,则根据古典概型,上述随机变量等于1的概率为:<maths num="001"><![CDATA[ <math><mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>Y</mi><mi>ik</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msubsup><mi>C</mi><mi>N</mi><mi>k</mi></msubsup><msup><mrow><mo>(</mo><mfrac><mrow><mi>L</mi><mo>-</mo><mi>F</mi><mo>+</mo><mn>1</mn></mrow><mi>G</mi></mfrac><mo>)</mo></mrow><mi>k</mi></msup><msup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mi>L</mi><mo>-</mo><mi>F</mi><mo>+</mo><mn>1</mn></mrow><mi>G</mi></mfrac><mo>)</mo></mrow><mrow><mi>N</mi><mo>-</mo><mi>k</mi></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>一次测序中出现次数为k的片段的平均个数可表示为:<maths num="002"><![CDATA[ <math><mrow><mi>E</mi><mrow><mo>(</mo><msub><mi>Y</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>E</mi><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>G</mi></munderover><msub><mi>Y</mi><mi>ik</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>G</mi><mo>&CenterDot;</mo><msubsup><mi>C</mi><mi>N</mi><mi>k</mi></msubsup><msup><mrow><mo>(</mo><mfrac><mrow><mi>L</mi><mo>-</mo><mi>F</mi><mo>+</mo><mn>1</mn></mrow><mi>G</mi></mfrac><mo>)</mo></mrow><mi>k</mi></msup><msup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mi>L</mi><mo>-</mo><mi>F</mi><mo>+</mo><mn>1</mn></mrow><mi>G</mi></mfrac><mo>)</mo></mrow><mrow><mi>N</mi><mo>-</mo><mi>k</mi></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>使用下式作为一次测序中出现次数为k的片段出现概率的估计值;P<sub>k</sub>=E(Y<sub>k</sub>)/G                                              (3)(2)计算重复片段出现概率分布:设片段为一个有m个拷贝的重复序列,出现在基因组中的m个不同位置,在散弹法测序数据集中的出现次数是所有位置出现次数的和,用G<sub>mk</sub>表示有m个拷贝的重复序列在一次测序中的出现次数为k的概率,则上述关系可用数学公式表示为:<maths num="003"><![CDATA[ <math><mrow><msub><mi>G</mi><mrow><mi>m</mi><mn>0</mn></mrow></msub><mo>=</mo><msubsup><mi>P</mi><mn>0</mn><mi>m</mi></msubsup></mrow></math>]]></maths><maths num="004"><![CDATA[ <math><mrow><msub><mi>G</mi><mrow><mi>m</mi><mn>1</mn></mrow></msub><mo>=</mo><msubsup><mi>C</mi><mi>m</mi><mn>1</mn></msubsup><mo>&CenterDot;</mo><msub><mi>P</mi><mn>1</mn></msub><mo>&CenterDot;</mo><msubsup><mi>P</mi><mn>0</mn><mrow><mi>m</mi><mo>-</mo><mn>1</mn></mrow></msubsup></mrow></math>]]></maths><maths num="005"><![CDATA[ <math><mrow><msub><mi>G</mi><mrow><mi>m</mi><mn>2</mn></mrow></msub><mo>=</mo><msubsup><mi>C</mi><mi>m</mi><mn>2</mn></msubsup><mo>&CenterDot;</mo><msubsup><mi>P</mi><mn>1</mn><mn>2</mn></msubsup><mo>&CenterDot;</mo><msubsup><mi>P</mi><mn>0</mn><mrow><mi>m</mi><mo>-</mo><mn>2</mn></mrow></msubsup><mo>+</mo><msubsup><mi>C</mi><mi>m</mi><mn>1</mn></msubsup><mo>&CenterDot;</mo><msub><mi>P</mi><mn>2</mn></msub><mo>&CenterDot;</mo><msubsup><mi>P</mi><mn>0</mn><mrow><mi>m</mi><mo>-</mo><mn>1</mn></mrow></msubsup></mrow></math>]]></maths><maths num="006"><![CDATA[ <math><mrow><msub><mi>G</mi><mrow><mi>m</mi><mn>3</mn></mrow></msub><mo>=</mo><msubsup><mi>C</mi><mi>m</mi><mn>3</mn></msubsup><mo>&CenterDot;</mo><msubsup><mi>P</mi><mn>1</mn><mn>3</mn></msubsup><mo>&CenterDot;</mo><msubsup><mi>P</mi><mn>0</mn><mrow><mi>m</mi><mo>-</mo><mn>3</mn></mrow></msubsup><mo>+</mo><msubsup><mi>C</mi><mi>m</mi><mn>2</mn></msubsup><mo>&CenterDot;</mo><msubsup><mi>C</mi><mn>2</mn><mn>1</mn></msubsup><mo>&CenterDot;</mo><msub><mi>P</mi><mn>1</mn></msub><mo>&CenterDot;</mo><msub><mi>P</mi><mn>2</mn></msub><mo>&CenterDot;</mo><msubsup><mi>P</mi><mn>0</mn><mrow><mi>m</mi><mo>-</mo><mn>2</mn></mrow></msubsup><mo>+</mo><msubsup><mi>C</mi><mi>m</mi><mn>1</mn></msubsup><mo>&CenterDot;</mo><msub><mi>P</mi><mn>3</mn></msub><mo>&CenterDot;</mo><msubsup><mi>P</mi><mn>0</mn><mrow><mi>m</mi><mo>-</mo><mn>1</mn></mrow></msubsup></mrow></math>]]></maths>………G<sub>mj+</sub>=1-G<sub>m0</sub>-G<sub>m1</sub>…-G<sub>mj-1</sub>其中G<sub>mj+</sub>表示出现次数为j和更多的概率;(3)重复序列的识别:选取非重复片段出现概率为0.3%的次数为重复片段的判别标准,超过这一标准的片段就认为它属于重复序列,否则就是非重复序列;(4)首先屏蔽重复序列,将上述散弹法测序数据中与识别出的片段相同的碱基改写为N,屏蔽后剩余长度超过50bp的测序数据仍进入拼接过程;(5)若目标基因组大小为1百万-3千万碱基,则屏蔽去重复序列后不分组直接进入拼接,若目标基因组大于上述范围,则需要按照测序读数之间的关连进行分组,然后进行拼接;(6)将得到的大片段中的N恢复成原有碱基,并利用同一克隆正反向测序的信息找出相关的大片段以及出现在它们之间的读数,并将其连接起来;(7)所有能连接的片段都连接以后,再使用正反向测序信息把大片段排好顺序,即得到目标基因组的工作框架图。
地址 101300北京市北京空港科技创业园B-6