发明名称 确定胚胎基因组中预定区域碱基信息的方法、系统和计算机可读介质
摘要 提供了确定胚胎基因组中预定区域碱基信息的方法、系统和计算机可读介质。其中,确定胚胎基因组中预定区域碱基信息的方法,包括下列步骤:获得胚胎细胞基因组DNA样本的测序结果,以及胚胎遗传相关个体基因组样本的测序结果;基于胚胎细胞基因组DNA样本的测序结果,构建该胚胎的遗传草图,以便确定胚胎初始基因型;基于胚胎遗传相关个体基因组样本的测序结果,确定胚胎父母的单倍体型;以及根据隐马尔可夫模型,以该胚胎初始基因型作为观察序列,基于该胚胎父母的单倍体型,确定胚胎基因组中预定区域的碱基信息。
申请公布号 CN105051208B 申请公布日期 2017.04.19
申请号 CN201380074395.3 申请日期 2013.03.28
申请人 深圳华大基因股份有限公司 发明人 殷旭阳;蒋慧;陈盛培;龚淳;陈芳;张春雷;潘小瑜
分类号 C12Q1/68(2006.01)I 主分类号 C12Q1/68(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 李志东
主权项 一种确定胚胎基因组中预定区域碱基信息的方法,所述方法用于非诊断目的,其特征在于,包括下列步骤:获得胚胎细胞基因组DNA样本的测序结果,以及胚胎遗传相关个体基因组样本的测序结果;基于胚胎细胞基因组DNA样本的测序结果,构建所述胚胎的遗传草图,以便确定胚胎初始基因型;基于所述胚胎遗传相关个体基因组样本的测序结果,确定胚胎父母的单倍体型;以及根据隐马尔可夫模型,以所述胚胎初始基因型作为观察序列,基于所述胚胎父母的单倍体型,确定胚胎基因组中预定区域的碱基信息,其中,根据隐马尔可夫模型,确定胚胎基因组中预定区域的碱基信息进一步包括:构建初始状态概率分布向量、隐藏状态转移的概率矩阵以及观察序列概率矩阵;利用惠特比算法确定最终状态并回溯最优路径,以便确定胚胎基因组中预定区域的碱基信息,所述隐马尔可夫模型采用下列参数:初始状态概率分布为π={π<sub>i</sub>},(i∈S,π<sub>i</sub>=0.5),隐藏状态转移的概率矩阵为A={a<sub>ij</sub>},(i,j∈S),其中,<img file="FDA0001132629300000011.GIF" wi="606" he="181" />Nr、Np分别表示期望重组数和单核苷酸多态性位点数,Nr为自然数,取值范围20‑40,观察序列概率矩阵为B={b<sub>i</sub>(k)},(i∈S,k∈V),其中,<img file="FDA0001132629300000012.GIF" wi="1318" he="142" />#sites(L&gt;0,Must‑hom.)为子代一定为纯合的位点的数目,#sites(L&gt;0,Must‑hom.orMust‑het.)为子代一定为纯合的位点的数目以及子代一定为杂合的位点的数目的总和;局部概率为δ<sub>t</sub>(j)=max[δ<sub>t‑1</sub>(i)·a<sub>ij</sub>]·b<sub>j</sub>(K)t∈{1...N},逆向指针为Ψ<sub>i</sub>(j)=argmaxδ<sub>t‑1</sub>(i)·a<sub>ij</sub>t∈{1...N},递归得最终状态为<img file="FDA0001132629300000013.GIF" wi="464" he="111" />回溯最优路径,确定最可能的胚胎预定区域的碱基信息为q<sub>t</sub><sup>*</sup>=Ψ<sub>t+1</sub>(q<sup>*</sup><sub>t+1</sub>)(t=1,2,3,...,N‑1)。
地址 广东省深圳市盐田区洪安三街21号华大综合园7栋7层-14层