发明名称 |
一种基于读数和距离分布的基因组De novo序列拼接方法 |
摘要 |
本发明公开了一种基于读数和距离分布的基因组De novo序列拼接方法,采用De Bruijn图存储读数之间的重叠关系,基于读数分布提出了一种新的打分函数用在contig构建、scaffolding和填充空白区域等步骤。该打分函数充分考虑了测序深度,k-mer频次以及在复杂重复区中insertsize的偏移。本发明简单易用,在不同的模拟和真实测序数据上表现出良好的拼接结果,较其他序列拼接方法具有更高的连续性和完整性。 |
申请公布号 |
CN104200133A |
申请公布日期 |
2014.12.10 |
申请号 |
CN201410482300.8 |
申请日期 |
2014.09.19 |
申请人 |
中南大学 |
发明人 |
王建新;罗军伟;李敏 |
分类号 |
G06F19/18(2011.01)I |
主分类号 |
G06F19/18(2011.01)I |
代理机构 |
长沙正奇专利事务所有限责任公司 43113 |
代理人 |
马强 |
主权项 |
一种基于读数和距离分布的基因组De novo序列拼接方法,其特征在于,包括以下步骤:1)输入双端读数文库,构建初始De Bruijn图,并对初始De Bruijn图进行优化;2)以De Bruijn图为基础,选择种子序列,并利用打分函数对候选扩展序列进行打分,选择得分最高的候选扩展序列与种子序列合并,并继续进行扩充,直到结束条件为止。扩展后的每个种子序列即为一条contig,所有的contig构成一个contig集合;3)建立scaffold图,每个结点代表一个contig,边代表两条contig在真实基因组序列上的位置紧邻;4)填充scaffold图中有边相连的两个结点之间的空白区域,通过匹配上的双端读数长生一个局部读数集合,在局部读数集合上构建新的De Bruijn图,并在该De Bruijn图上寻找能够连接两个结点的路径,如果存在这样的路径,则以该路径填充空白区域。 |
地址 |
410083 湖南省长沙市岳麓区麓山南路932号 |