发明名称 |
一种高杂合二倍体基因组支架序列组装策略 |
摘要 |
本发明适用于生物信息领域,提供了一种高杂合二倍体基因组支架序列组装策略。具体包括:将Reads比对到Contig上得到所需要映射信息Arc和Link;根据Contig的长度和覆盖深度(CoverageDepth)设定阈值,将短的和高覆盖深度的Contig过滤;先由Contig两两间的Arc关系,构建Contig之间的有向连接图,使用寻找泡状结构过滤单路径算法单元对图进行处理;使用Contig之间的Link关系,构建Contig和TempScaffold之间的有向连接图,对图进行线性化处理;在所有插入片段库都被遍历使用后,得到最终的TempScaffold即为最终的Scaffold;根据保存的信息将之前使用Arc信息过滤掉的杂合单路径对应补回,并最终展示在结果中。通过本发明,能够在高杂合二倍体基因组的Scaffold组装中起到至关重要的作用,最终得到符合后续分析要求的结果。 |
申请公布号 |
CN102982252A |
申请公布日期 |
2013.03.20 |
申请号 |
CN201210515431.2 |
申请日期 |
2012.12.05 |
申请人 |
北京诺禾致源生物信息科技有限公司 |
发明人 |
阮航;王海龙;朱红梅;李瑞强 |
分类号 |
G06F19/20(2011.01)I |
主分类号 |
G06F19/20(2011.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种高杂合二倍体支架序列组装策略,其特征在于,包括如下步骤:将Reads比对到Contig上得到所需要映射信息Arc和Link;根据Contig的长度和覆盖深度(Coverage Depth)设定阈值,将短的和过高覆盖深度的Contig过滤;先由Contig之间的Arc关系,构建Contig之间的有向连接图,使用寻找泡状结构过滤单路径算法单元对图进行处理;使用Contig之间的Link关系,构建Contig和Temp Scaffold之间的有向连接图,对图进行线性化处理; 在所有插入片段库都被遍历使用后,得到最终的Temp Scaffold即为最终的Scaffold;根据在寻找泡状结构过滤单路径算法单元的过程中储存的信息,对应最终Scaffold中Contig路径补回被过滤的杂合单路径,并将其输出在结果序列中。 |
地址 |
100083 北京市昌平区回龙观镇生命园路29号创新大厦B258室 |