主权项 |
一种确定胚胎基因组中预定区域碱基信息的方法,所述方法用于非诊断目的,其特征在于,包括下列步骤:获得胚胎细胞基因组DNA样本的测序结果,以及胚胎遗传相关个体基因组样本的测序结果;基于胚胎细胞基因组DNA样本的测序结果,构建所述胚胎的遗传草图,以便确定胚胎初始基因型;基于所述胚胎遗传相关个体基因组样本的测序结果,确定胚胎父母的单倍体型;以及根据隐马尔可夫模型,以所述胚胎初始基因型作为观察序列,基于所述胚胎父母的单倍体型,确定胚胎基因组中预定区域的碱基信息,其中,根据隐马尔可夫模型,确定胚胎基因组中预定区域的碱基信息进一步包括:构建初始状态概率分布向量、隐藏状态转移的概率矩阵以及观察序列概率矩阵;利用惠特比算法确定最终状态并回溯最优路径,以便确定胚胎基因组中预定区域的碱基信息,所述隐马尔可夫模型采用下列参数:初始状态概率分布为π={π<sub>i</sub>},(i∈S,π<sub>i</sub>=0.5),隐藏状态转移的概率矩阵为A={a<sub>ij</sub>},(i,j∈S),其中,<img file="FDA0001132629300000011.GIF" wi="606" he="181" />Nr、Np分别表示期望重组数和单核苷酸多态性位点数,Nr为自然数,取值范围20‑40,观察序列概率矩阵为B={b<sub>i</sub>(k)},(i∈S,k∈V),其中,<img file="FDA0001132629300000012.GIF" wi="1318" he="142" />#sites(L>0,Must‑hom.)为子代一定为纯合的位点的数目,#sites(L>0,Must‑hom.orMust‑het.)为子代一定为纯合的位点的数目以及子代一定为杂合的位点的数目的总和;局部概率为δ<sub>t</sub>(j)=max[δ<sub>t‑1</sub>(i)·a<sub>ij</sub>]·b<sub>j</sub>(K)t∈{1...N},逆向指针为Ψ<sub>i</sub>(j)=argmaxδ<sub>t‑1</sub>(i)·a<sub>ij</sub>t∈{1...N},递归得最终状态为<img file="FDA0001132629300000013.GIF" wi="464" he="111" />回溯最优路径,确定最可能的胚胎预定区域的碱基信息为q<sub>t</sub><sup>*</sup>=Ψ<sub>t+1</sub>(q<sup>*</sup><sub>t+1</sub>)(t=1,2,3,...,N‑1)。 |