发明名称 一种物种特异性内源性条形码的搜索方法及其在多样本混合测序中的应用
摘要 本发明公开了一种物种特异性内源性条形码的搜索方法及其在多样本混合测序中的应用。该搜索方法包括确定、搜集、比对候选基因组序列、计算当前滑动窗口内序列的变异度和窗口两侧序列的保守度、以及根据滑动窗口扫描计算结果,从而确定内源性条形码的步骤。确定内源性条形码后,利用重叠延伸PCR技术扩增并连接内源性条形码和待测目标序列,上机测序,然后通过内源性条形码特征判断测序片段的样本来源。与现有的体外合成的外源性条形码标记样本相比,内源性条形码不用人工合成DNA,并且可实现多个样本一步反应内同时扩增并连接各自条形码和待测目标序列,简化了先提取待测目标序列、再逐个连接体外合成条形码的实验过程,从而降低测序成本。
申请公布号 CN104573407A 申请公布日期 2015.04.29
申请号 CN201510070781.6 申请日期 2015.02.10
申请人 东南大学 发明人 孙啸;李成;涂景;束传军
分类号 G06F19/20(2011.01)I;C12Q1/68(2006.01)I 主分类号 G06F19/20(2011.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 柏尚春
主权项 一种物种特异性内源性条形码的搜索方法,其特征在于,包括如下步骤:(1)确定内源性条形码所在的候选基因组序列:根据待测序样本的特征,选择分类学上广泛应用的相应物种的生物条形码作为搜索范围,从而确定内源性条形码序列在全基因组上的一个大范围区域,通过在此范围内搜索,得到尽可能短的基因组序列作为内源性条形码所对应的区域;(2)搜集候选基因组序列:搜集并下载与待测序样本进化关系较近物种的已测序候选基因组序列;(3)比对搜集的候选基因组序列:使得所有序列长度一致并对齐,以便滑动窗口在此范围内逐个碱基扫描,寻找尽可能短的样本特异性序列对应的区域;(4)设定条形码长度参数:考虑实际测序长度和目标DNA长度,设定条形码长度参数,所述条形码长度参数根据内源性条形码对实际测序长度所占的比例算得;(5)计算滑动窗口内序列的变异度和窗口两侧序列的保守度:初始化窗宽,并以条形码长度参数为最大窗口宽度,进行以下循环计算,即以固定宽度的滑动窗口在对齐后的序列区域逐位滑动,计算每个窗口内序列的变异度和窗口两侧指定长度序列的保守度,然后逐渐扩大窗口宽度,直至找到满足要求的高变异和高保守区域,或达到滑动窗口宽度的上限,其中,变异度定义如下:设序列集A为所有样本的基因组序列在对应滑动窗口下的等长序列集合,特异性序列集合B为集合A中某序列和其它序列至少有一个碱基以上不同的序列集合,则<img file="FDA0000670331350000011.GIF" wi="453" he="167" />其中card(X)为集合X中元素的个数;保守度定义如下:设序列集C为滑动窗口某一侧指定长度的基因组序列集合,设C中数目最多的相同序列为a,C中序列y组成集合D={y|hamming(y,a)≤3)},<img file="FDA0000670331350000012.GIF" wi="457" he="162" />其中hamming(y,a)表示序列y与序列a之间的海明距离;(6)根据滑动窗口扫描计算结果,确定内源性条形码:选择的滑动窗口内序列的变异度为100%、窗口两侧序列的保守度也为100%的序列作为物种特异性的内源性条形码,若滑动窗宽达到设定上限仍无法找到满足要求的内源性条形码,则停止搜索,认为在设定的当前参数条件下无法找到合适的内源性条形码,需要适当提高条形码长度参数,或者将样本分组分别混合测序、通过减少每组样本数量找到满足要求的内源性条形码。
地址 210096 江苏省南京市四牌楼2号