发明名称 基于基因拷贝数变异位点对林木群体基因型分型的方法
摘要 本发明提供的基于基因拷贝数变异位点对林木群体基因型的分型方法,与物种已公布的参考基因组序列相比,将不同个体上测序得到的大量reads映射到预先分割的参考基因组上比对;由匹配到窗口中的reads数目作为读取深度信号;根据窗口内的GC含量和偏差,基于不同个体在窗口内的读取深度信号值的数据集的中值,对窗口的读深信号值进行数据标准化处理;利用校正后的读深信号值预测不同个体在窗口中发生变异的拷贝数,根据读取深度信号值对每个CNV位点的基因型进行分型。本发明方法适用于不同群体大小的林木,利用高通量测序结果的读取深度信号确定CNV位点的基因型,算法简单,操作简便易行,较精确地发现和检测CNV位点的基因型。
申请公布号 CN106480221A 申请公布日期 2017.03.08
申请号 CN201611175387.X 申请日期 2016.12.19
申请人 北京林业大学 发明人 张德强;杨海娇;杜庆章
分类号 C12Q1/68(2006.01)I 主分类号 C12Q1/68(2006.01)I
代理机构 北京高沃律师事务所 11569 代理人 王加贵
主权项 基于基因拷贝数变异位点对林木群体基因型的分型方法,其特征在于,包括以下步骤:1)将林木物种中已经公布的基因组序列作为参考序列,操作界面的每个窗口上显示连续的、非重叠的、大小相等区域,每个窗口能在空间上左右调整;2)将所述林木物种的不同个体测序,将所述测序得到的reads比对到所述步骤1)的参考序列上,将每个窗口内比对到的reads数目作为读取深度信号;3)根据每个窗口内reads的GC含量和偏差,空间上左右调整得到所述窗口的读取深度信号值,根据调整后的读取深度信号值得到不同个体在每个窗口内的读取深度信号值形成的数据集,再根据所述数据集计算得到中值;4)根据步骤3)得到的中值对所述步骤2)得到的读取深度信号值进行数据标准化处理,得到校正后的读取深度信号值;5)根据步骤4)得到的校正后的读取深度信号值计算不同个体在所述窗口中拷贝数,以拷贝数为2的拷贝数设为正常拷贝,所述正常拷贝的基因型为(1;1);6)当所述步骤5)中得到的拷贝数发生变异,且所述窗口内读取深度信号与正常拷贝的窗口相比有显著地增高时,属于基因拷贝数发生重复的结构变异;对重复拷贝数CN为3或4的基因位点进行分型,所述分型的方法具体为:将标准化校正后读取深度信号值的1.25<读取深度信号值<1.75范围内的基因拷贝数变异位点设为杂合重复,杂合重复的基因型为(1;2);将标准化校正后的1.75<读取深度信号值<2.25的基因拷贝数变异位点设为纯合重复,纯合重复的基因型为(2;2);7)当所述步骤5)中得到的拷贝数发生变异,且所述窗口内读取深度信号与无拷贝数变异的窗口相比有显著地降低时,属于基因拷贝数发生缺失的结构变异;对所述缺失的结构变异进行分型,所述分型的方法具体为:将标准化校正后的读取深度信号值<0.10的基因拷贝数变异位点设为纯合缺失,设定纯合缺失的基因型为(0;0);将标准化校正后的读取深度信号值为0.10<读取深度信号值<0.75的位点设为杂合缺失,设定杂合缺失的基因型为(0;1);所述步骤6)和7)没有时间顺序的限定。
地址 100000 北京市海淀区清华东路35号北京林业大学118信箱