发明名称 利用蛋白质序列构建基因组的方法和装置
摘要 本发明提供了一种利用蛋白质序列构建基因组的方法和装置。具体地,本发明提供了基于蛋白序列拼接基因组的方法,包括筛选片段化蛋白序列、比对区域在蛋白序列上的排序及筛选、基于最多连接证据的基因组序列拼接筛选、形成新的基因组序列等步骤。本发明含有最多连接证据的拼接即为最可靠拼接的统计思想,以及利用包含同源蛋白在内的蛋白质序列拼接基因组的方法。根据本发明的利用蛋白质数据装配基因组的方法,能够利用公开的蛋白序列,以提升基因组的完整性。蛋白序列数据既可以是基因组序列对应物种的蛋白序列,也可以是近缘物种的蛋白序列。这些序列来自于公共数据库,也可以是使用者实验产生的数据。本发明还提供了实现上述方法的装置。
申请公布号 CN105219765A 申请公布日期 2016.01.06
申请号 CN201510755855.X 申请日期 2015.11.09
申请人 中国水产科学研究院 发明人 李炯棠;朱柏翰;薛尉
分类号 C12N15/10(2006.01)I 主分类号 C12N15/10(2006.01)I
代理机构 北京市京大律师事务所 11321 代理人 刘向辉;王凝
主权项 一种基于蛋白序列拼接基因组的方法,包括如下步骤:(1)筛选片段化蛋白序列将蛋白序列与基因组序列进行比对,获得比对区域在所述蛋白序列上的相对位置,以及在所述基因组序列上的绝对位置,去除序列覆盖度过高的蛋白序列和仅比对到一条基因组序列的蛋白序列,使得筛选后的蛋白序列能比对到多条基因组序列并且每个比对区域都不能完全覆盖整条蛋白,得到片段化的蛋白序列;(2)比对区域在蛋白序列上的排序及筛选按照所述片段化的蛋白序列对应的比对区域在蛋白序列上的所述相对位置,从小到大将其比对区域对应的基因组序列依次排列,计算前后相连的两个比对区域之间的间隔,保留间隔小于200Kb的比对区域拼接和其对应的基因组序列拼接,将所述基因组序列拼接所对应的所述片段化的蛋白序列作为所述基因组序列拼接的连接证据;(3)基于最多连接证据的基因组序列拼接筛选以所述基因组序列拼接中、后续连接新的基因组片段的序列为起点序列,以所述基因组序列拼接中、之前连接新的基因组片段的序列为终止序列,将后续连接新的基因组片断、但是之前没有连接新的基因组片断的基因组序列作为起始点,将之前有连接新的基因组片断、但是后续没有连接新的基因组片断的基因组序列作为终结点,将之前既有连接新的基因组片断、后续又有连接新的基因组片断的基因组序列作为中间点,保留有最多所述连接证据的所述起点序列和所述终止序列;(4)形成新的基因组序列针对步骤(3)中最终保留的序列,每个只能作为起始点的基因组片段,分别将其作为起始点,选择后续的中间点,为这个中间点进一步选择新的中间点,直至找到终结点为止,根据上述各基因组序列连接的前后顺序将各基因组片段串联组装成更长的基因组片段。
地址 100141 北京市丰台区永定路南青塔村150号