发明名称 一种基于读数和距离分布的基因组De novo序列拼接方法
摘要 本发明公开了一种基于读数和距离分布的基因组De novo序列拼接方法,采用De Bruijn图存储读数之间的重叠关系,基于读数分布提出了一种新的打分函数用在contig构建、scaffolding和填充空白区域等步骤。该打分函数充分考虑了测序深度,k-mer频次以及在复杂重复区中insertsize的偏移。本发明简单易用,在不同的模拟和真实测序数据上表现出良好的拼接结果,较其他序列拼接方法具有更高的连续性和完整性。
申请公布号 CN104200133A 申请公布日期 2014.12.10
申请号 CN201410482300.8 申请日期 2014.09.19
申请人 中南大学 发明人 王建新;罗军伟;李敏
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 长沙正奇专利事务所有限责任公司 43113 代理人 马强
主权项 一种基于读数和距离分布的基因组De novo序列拼接方法,其特征在于,包括以下步骤:1)输入双端读数文库,构建初始De Bruijn图,并对初始De Bruijn图进行优化;2)以De Bruijn图为基础,选择种子序列,并利用打分函数对候选扩展序列进行打分,选择得分最高的候选扩展序列与种子序列合并,并继续进行扩充,直到结束条件为止。扩展后的每个种子序列即为一条contig,所有的contig构成一个contig集合;3)建立scaffold图,每个结点代表一个contig,边代表两条contig在真实基因组序列上的位置紧邻;4)填充scaffold图中有边相连的两个结点之间的空白区域,通过匹配上的双端读数长生一个局部读数集合,在局部读数集合上构建新的De Bruijn图,并在该De Bruijn图上寻找能够连接两个结点的路径,如果存在这样的路径,则以该路径填充空白区域。
地址 410083 湖南省长沙市岳麓区麓山南路932号