主权项 |
一种基于蛋白序列拼接基因组的方法,包括如下步骤:(1)筛选片段化蛋白序列将蛋白序列与基因组序列进行比对,获得比对区域在所述蛋白序列上的相对位置,以及在所述基因组序列上的绝对位置,去除序列覆盖度过高的蛋白序列和仅比对到一条基因组序列的蛋白序列,使得筛选后的蛋白序列能比对到多条基因组序列并且每个比对区域都不能完全覆盖整条蛋白,得到片段化的蛋白序列;(2)比对区域在蛋白序列上的排序及筛选按照所述片段化的蛋白序列对应的比对区域在蛋白序列上的所述相对位置,从小到大将其比对区域对应的基因组序列依次排列,计算前后相连的两个比对区域之间的间隔,保留间隔小于200Kb的比对区域拼接和其对应的基因组序列拼接,将所述基因组序列拼接所对应的所述片段化的蛋白序列作为所述基因组序列拼接的连接证据;(3)基于最多连接证据的基因组序列拼接筛选以所述基因组序列拼接中、后续连接新的基因组片段的序列为起点序列,以所述基因组序列拼接中、之前连接新的基因组片段的序列为终止序列,将后续连接新的基因组片断、但是之前没有连接新的基因组片断的基因组序列作为起始点,将之前有连接新的基因组片断、但是后续没有连接新的基因组片断的基因组序列作为终结点,将之前既有连接新的基因组片断、后续又有连接新的基因组片断的基因组序列作为中间点,保留有最多所述连接证据的所述起点序列和所述终止序列;(4)形成新的基因组序列针对步骤(3)中最终保留的序列,每个只能作为起始点的基因组片段,分别将其作为起始点,选择后续的中间点,为这个中间点进一步选择新的中间点,直至找到终结点为止,根据上述各基因组序列连接的前后顺序将各基因组片段串联组装成更长的基因组片段。 |