发明名称 确定混合测序数据中读段的样本源的方法及装置
摘要 本发明提供了一种确定混合测序数据中读段的样本源的方法及装置,混合测序数据由多个读段组成,该方法包括:利用多个标签分别标记多个核酸样本,使得每个核酸样本至少带有一条或多条标签以区分其它核酸样本,记录每个核酸样本与其所带的标签的对应关系;混合多个核酸样本,对混合核酸样本进行核酸序列测定,获得混合测序数据;将混合测序数据与参考序列比对,获得比对结果,从比对结果中筛选出与参考序列不完全匹配而且不匹配部分的长度不小于比标签小1bp的长度的读段;依据筛选出的读段的信息和标签与样本的对应关系,确定混合测序数据中读段源自的核酸样本。
申请公布号 CN104232760B 申请公布日期 2017.03.15
申请号 CN201410427151.5 申请日期 2014.08.26
申请人 深圳华大基因医学有限公司 发明人 陈祖煜;冯大飞
分类号 C12Q1/68(2006.01)I;C12M1/00(2006.01)I 主分类号 C12Q1/68(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 李志东
主权项 确定混合测序数据中读段的样本源的方法,所述混合测序数据由多个读段组成,所述方法包括:A.利用多个标签分别标记多个核酸样本,使得每个核酸样本至少带有一条或多条标签以区分其它核酸样本,记录所述每个核酸样本与其所带的标签的对应关系;B.混合所述多个核酸样本,对混合核酸样本进行核酸序列测定,获得混合测序数据;C.将所述混合测序数据与参考序列比对,获得比对结果,从所述比对结果中筛选出与所述参考序列不完全匹配而且不匹配部分的长度不小于比A中的标签小1bp的长度的读段;D.依据C中筛选出的读段的信息和A中的对应关系,确定所述混合测序数据中读段源于的核酸样本;其中,A中的所述标签选自SEQ ID NO:27~124所示的序列,所述确定所述混合测序数据中读段源于的核酸样本进一步通过如下方式确定的:1)将所述混合测序数据与参考序列比对,获得比对结果;2)基于比对结果中的soft clip reads信息,对于每条soft clip reads,当5’端或3’端有一个长度为7bp的soft clip发生时,则读段在5’端或3’端有完整的标签序列;3)基于比对结果中的soft clip reads信息,对于每条soft clip reads,当5’端和3’端有完整的标签序列,如果5’端和3’端的所述标签序列不同,则舍去读段;4)基于比对结果中的soft clip reads信息,对于每条soft clip reads,有且仅有5’端或3’端具有标签序列,则所述标签序列为所述读段的标签序列;5)基于所述每个核酸样本与其所带的标签的对应关系,确定标签序列对应的核酸样本,从读段的序列和质量值中截去标签序列,剩余的序列和质量值归入核酸样本的数据,进而确定所述混合测序数据中读段源于的核酸样本。
地址 518083 广东省深圳市盐田区北山道146号北山工业区11栋2、3楼