发明名称 一种高杂合二倍体基因组支架序列组装策略
摘要 本发明适用于生物信息领域,提供了一种高杂合二倍体基因组支架序列组装策略。具体包括:将Reads比对到Contig上得到所需要映射信息Arc和Link;根据Contig的长度和覆盖深度(CoverageDepth)设定阈值,将短的和高覆盖深度的Contig过滤;先由Contig两两间的Arc关系,构建Contig之间的有向连接图,使用寻找泡状结构过滤单路径算法单元对图进行处理;使用Contig之间的Link关系,构建Contig和TempScaffold之间的有向连接图,对图进行线性化处理;在所有插入片段库都被遍历使用后,得到最终的TempScaffold即为最终的Scaffold;根据保存的信息将之前使用Arc信息过滤掉的杂合单路径对应补回,并最终展示在结果中。通过本发明,能够在高杂合二倍体基因组的Scaffold组装中起到至关重要的作用,最终得到符合后续分析要求的结果。
申请公布号 CN102982252A 申请公布日期 2013.03.20
申请号 CN201210515431.2 申请日期 2012.12.05
申请人 北京诺禾致源生物信息科技有限公司 发明人 阮航;王海龙;朱红梅;李瑞强
分类号 G06F19/20(2011.01)I 主分类号 G06F19/20(2011.01)I
代理机构 代理人
主权项 一种高杂合二倍体支架序列组装策略,其特征在于,包括如下步骤:将Reads比对到Contig上得到所需要映射信息Arc和Link;根据Contig的长度和覆盖深度(Coverage Depth)设定阈值,将短的和过高覆盖深度的Contig过滤;先由Contig之间的Arc关系,构建Contig之间的有向连接图,使用寻找泡状结构过滤单路径算法单元对图进行处理;使用Contig之间的Link关系,构建Contig和Temp Scaffold之间的有向连接图,对图进行线性化处理;    在所有插入片段库都被遍历使用后,得到最终的Temp Scaffold即为最终的Scaffold;根据在寻找泡状结构过滤单路径算法单元的过程中储存的信息,对应最终Scaffold中Contig路径补回被过滤的杂合单路径,并将其输出在结果序列中。
地址 100083 北京市昌平区回龙观镇生命园路29号创新大厦B258室