发明名称 组装基因组序列的方法和装置
摘要 本发明公开了一种组装基因组序列的方法和装置。其中,该方法包括对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列;将过滤后的短片段序列与参考基因组序列进行比对;根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量;利用soap reads序列计算成对比对上的短片段序列在参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在参考基因组序列上的距离分布;在距离分布满足阈值要求时,利用唯一成对比对上参考基因组序列的不同片段的single reads序列进行基因组序列的组装。
申请公布号 CN102206704B 申请公布日期 2013.11.20
申请号 CN201110049885.0 申请日期 2011.03.02
申请人 深圳华大基因科技服务有限公司 发明人 韩长磊;陈文彬;张秀清;杨焕明
分类号 C12Q1/68(2006.01)I;C12M1/00(2006.01)I 主分类号 C12Q1/68(2006.01)I
代理机构 中国国际贸易促进委员会专利商标事务所 11038 代理人 孙宝海
主权项 一种组装基因组序列的方法,其特征在于,包括:对长插入片段文库末端测序输出的短片段序列进行过滤以去除不合格的序列,其中,所述不合格的序列包括实验引入的外源序列、碱基为N的碱基数目达到预定比例的短片段序列、碱基为polyA结构的短片段序列、低质量碱基数目达到预定个数的短片段序列、接头污染的短片段序列、测序中成对短片段序列有重叠区域的短片段序列、以及重复测到的短片段序列;将过滤后的短片段序列与参考基因组序列进行比对;根据比对结果将进行比对的成对短片段序列分为soap reads序列、single reads序列和unmap reads序列,并统计各类序列的数量,其中,所述soap reads序列指成对存在且都能比对到参考基因组序列的同一组装片段上的短序列;所述single reads序列指成对的两条短序列中只有一条比对到参考基因组序列的不同组装片段上的短序列;所述unmap reads指成对的两条短序列均未比对到参考基因组序列的组装片段上的短序列,所述soap reads序列包括唯一成对比对上所述参考基因组序列的同一片段的soap reads序列和多次成对比对上所述参考基因组序列的同一片段的soap reads序列;利用唯一成对比对上所述参考基因组序列的同一片段的soap reads序列计算成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离,并统计各个成对比对上的短片段序列在所述参考基因组序列上的距离分布;在所述距离分布满足阈值要求时,利用唯一成对比对上所述参考基因组序列的不同片段的single reads序列进行基因组序列的组装。
地址 518083 广东省深圳市盐田区北山工业区综合楼科技创业园201