发明名称 一种基于参考基因组和从头组装相结合的二代测序数据组装方法
摘要 本发明涉及一种基于参考基因组和从头组装相结合的二代测序数据组装方法。将基于参考基因组组装和基因组从头组装这两种策略结合起来,来克服这两者的劣势,同时充分利用这两者的优势。首先,利用基于参考基因组的策略获得一个连续性和准确率较好的基因组序列。然后,利用从头组装的策略获得一个从头组装的基因组,该基因组对物种特异性序列的组装方面表现较好。最后,将这两个基因组整合到一起,产生一个在准确率、连续性和完整性都较好的基因组。
申请公布号 CN105303068A 申请公布日期 2016.02.03
申请号 CN201510706400.9 申请日期 2015.10.27
申请人 华中农业大学 发明人 陈玲玲;孙帅;焦文标;徐锡文;宋佳明
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 北京科亿知识产权代理事务所(普通合伙) 11350 代理人 肖平安
主权项 一种利用参考基因组获得基因组编码信息的方法,其特征在于,取待测样品,利用二代测序方法测序,获得未处理的编码数据;将测序得到的未处理的编码数据经过以下步骤处理:(1)对测序读段数据进行预处理;(2)使用短序列比对工具将处理过的读段比对到参考基因组,然后根据比对结果来统计基因组每个位点的覆盖度,基因组平均覆盖度和覆盖率;(3)根据参考基因组位点的覆盖度,定义连续覆盖的区域为区块;将小区块合并成大区块,并且相邻大区块设置重叠区;(4)对于大区块内的读段,进行重头组装,将组装结果的重叠群序列输出;(5)使用序列组装工具进一步处理,去除重叠冗余的区段;(6)再经过构建支架序列、填补空缺、校正组装错误步骤,获得基因组编码信息。
地址 430070 湖北省武汉市洪山区狮子山街1号