发明名称 一种基于混合线性模型的多性状关联分析方法
摘要 本发明公开了一种基于混合线性模型的多性状关联分析方法,该方法包括:构建统计遗传模型;确定效应显著的单位点SNP标记;确定互作效应显著的二互作上位性SNP标记;估算遗传效应。本发明基于多变量混合线性模型的多性状全基因组关联分析方法综合利用了多个遗传相关性状的变异信息,与单性状分析方法相比,具有较高的分析功效和较低的假阳性,QTS位置估算更为准确,效应估计更为稳健。
申请公布号 CN105740649A 申请公布日期 2016.07.06
申请号 CN201610045592.8 申请日期 2016.01.22
申请人 浙江大学 发明人 徐海明;刘守业;祁婷;朱智宏;朱军
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 杭州天勤知识产权代理有限公司 33224 代理人 胡红娟
主权项 一种基于混合线性模型的多性状关联分析方法,其特征在于,包括:(1)构建统计遗传模型:假设一个自然群体由n个个体组成,在p个不同环境中进行田间试验,m个相关性状的遗传变异受s个QTS位点和t对二互作上位性的调控;环境k中针对第i个性状的第j个株系的表型观测值y<sub>ijk</sub>表示为:<maths num="0001"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><msub><mi>y</mi><mrow><mi>i</mi><mi>j</mi><mi>k</mi></mrow></msub><mo>=</mo><msub><mi>&mu;</mi><mi>i</mi></msub><mo>+</mo><munderover><mo>&Sigma;</mo><mi>c</mi><mi>q</mi></munderover><msub><mi>b</mi><mrow><mi>i</mi><mi>c</mi></mrow></msub><msub><mi>x</mi><mrow><mi>j</mi><mi>k</mi><mi>c</mi></mrow></msub><mo>+</mo><munderover><mo>&Sigma;</mo><mi>l</mi><mi>s</mi></munderover><msub><mi>a</mi><mrow><mi>i</mi><mi>l</mi></mrow></msub><msub><mi>x</mi><mrow><mi>l</mi><mi>j</mi></mrow></msub><mo>+</mo><munderover><mo>&Sigma;</mo><mrow><mi>l</mi><mo>,</mo><mi>h</mi><mo>&Element;</mo><mrow><mo>(</mo><mn>1</mn><mo>,</mo><mn>2...</mn><mo>,</mo><mi>s</mi><mo>)</mo></mrow><mo>,</mo><mi>l</mi><mo>&lt;</mo><mi>h</mi></mrow><mi>t</mi></munderover><msub><mi>aa</mi><mrow><mi>i</mi><mi>l</mi><mi>h</mi></mrow></msub><msub><mi>x</mi><mrow><mi>l</mi><mi>j</mi></mrow></msub><msub><mi>x</mi><mrow><mi>h</mi><mi>j</mi></mrow></msub></mrow></mtd></mtr><mtr><mtd><mrow><mo>+</mo><msub><mi>e</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>+</mo><munderover><mo>&Sigma;</mo><mi>l</mi><mi>s</mi></munderover><msub><mi>ae</mi><mrow><mi>i</mi><mi>l</mi><mi>k</mi></mrow></msub><msub><mi>x</mi><mrow><mi>l</mi><mi>j</mi><mi>k</mi></mrow></msub><mo>+</mo><munderover><mo>&Sigma;</mo><mrow><mi>l</mi><mo>,</mo><mi>h</mi><mo>&Element;</mo><mrow><mo>(</mo><mn>1</mn><mo>,</mo><mn>2...</mn><mo>,</mo><mi>s</mi><mo>)</mo></mrow><mo>,</mo><mi>l</mi><mo>&lt;</mo><mi>h</mi></mrow><mi>t</mi></munderover><msub><mi>aae</mi><mrow><mi>i</mi><mi>l</mi><mi>h</mi><mi>k</mi></mrow></msub><msub><mi>x</mi><mrow><mi>l</mi><mi>j</mi><mi>k</mi></mrow></msub><msub><mi>x</mi><mrow><mi>h</mi><mi>j</mi><mi>k</mi></mrow></msub><mo>+</mo><msub><mi>&epsiv;</mi><mrow><mi>i</mi><mi>j</mi><mi>k</mi></mrow></msub></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000912553610000011.GIF" wi="1377" he="393" /></maths>式中,μ<sub>i</sub>是性状i的群体均值;b<sub>ic</sub>是性状i第c个协变量的效应,系数为x<sub>jkc</sub>;a<sub>il</sub>是性状i第l个QTS的加性效应,系数为x<sub>lj</sub>;aa<sub>ilh</sub>是性状i第l个QTS与第h个QTS之间的加加上位性,系数为x<sub>lj</sub> x<sub>hj</sub>;e<sub>ik</sub>是性状i在环境k下的效应;ae<sub>ilk</sub>是a<sub>il</sub>与第k个环境的互作效应,系数为x<sub>ljk</sub>;aae<sub>ilhk</sub>是aa<sub>ilh</sub>与第k个环境的互作效应,系数为x<sub>ljk</sub> x<sub>hjk</sub>;ε<sub>ijk</sub>是性状i株系j在环境k下的随机残差;(2)确定效应显著的单位点SNP标记:在全基因组范围内,逐一检测各SNP标记,通过Lambda统计量和置换检验方法,获取效应显著的单位点SNP标记;<maths num="0002"><math><![CDATA[<mrow><msub><mi>y</mi><mrow><mi>i</mi><mi>j</mi><mi>k</mi></mrow></msub><mo>=</mo><msub><mi>&mu;</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>+</mo><munderover><mo>&Sigma;</mo><mi>c</mi><mi>q</mi></munderover><msub><mi>b</mi><mrow><mi>i</mi><mi>c</mi></mrow></msub><msub><mi>x</mi><mrow><mi>j</mi><mi>k</mi><mi>c</mi></mrow></msub><mo>+</mo><msub><mi>a</mi><mrow><mi>i</mi><mi>l</mi><mi>k</mi></mrow></msub><msub><mi>x</mi><mrow><mi>l</mi><mi>j</mi></mrow></msub><mo>+</mo><msub><mi>&epsiv;</mi><mrow><mi>i</mi><mi>j</mi><mi>k</mi></mrow></msub></mrow>]]></math><img file="FDA0000912553610000012.GIF" wi="955" he="192" /></maths>式中,y<sub>ijk</sub>是环境k中第i个性状的第j个株系的表型观测值;μ<sub>ik</sub>是环境k中性状i的群体均值;b<sub>ic</sub>是性状i第c个协变量的效应,系数为x<sub>jkc</sub>;a<sub>ilk</sub>是环境k中性状i位点l的加性效应,系数为x<sub>lj</sub>;ε<sub>ijk</sub>是株系j在环境k下第i个性状的随机残差;(3)确定互作效应显著的二互作上位性SNP标记:将步骤(2)中获得的单位点SNP标记作为协变量,通过Lambda统计量和置换检验方法,获取互作效应显著的二互作上位性SNP标记;<maths num="0003"><math><![CDATA[<mrow><msub><mi>y</mi><mrow><mi>i</mi><mi>j</mi><mi>k</mi></mrow></msub><mo>=</mo><msub><mi>&mu;</mi><mrow><mi>i</mi><mi>k</mi></mrow></msub><mo>+</mo><msub><mi>aa</mi><mrow><mi>i</mi><mi>l</mi><mi>h</mi><mi>k</mi></mrow></msub><msub><mi>x</mi><mrow><mi>l</mi><mi>j</mi></mrow></msub><msub><mi>x</mi><mrow><mi>h</mi><mi>j</mi></mrow></msub><mo>+</mo><munderover><mo>&Sigma;</mo><mi>c</mi><mi>q</mi></munderover><msub><mi>b</mi><mrow><mi>i</mi><mi>c</mi></mrow></msub><msub><mi>x</mi><mrow><mi>j</mi><mi>k</mi><mi>c</mi></mrow></msub><mo>+</mo><munderover><mo>&Sigma;</mo><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>s</mi></munderover><msub><mi>a</mi><mrow><mi>i</mi><mi>r</mi><mi>k</mi></mrow></msub><msub><mi>x</mi><mrow><mi>r</mi><mi>j</mi></mrow></msub><mo>+</mo><msub><mi>&epsiv;</mi><mrow><mi>i</mi><mi>j</mi><mi>k</mi></mrow></msub></mrow>]]></math><img file="FDA0000912553610000013.GIF" wi="1219" he="171" /></maths>式中,y<sub>ijk</sub>是环境k中第i个性状的第j个株系的表型观测值;μ<sub>ik</sub>是环境k中性状i的群体均值;aa<sub>ilhk</sub>是性状i在环境k下第l个QTS与第h个QTS之间的加加上位性效应,系数为x<sub>lj</sub> x<sub>hj</sub>;b<sub>ic</sub>是性状i第c个协变量的效应,系数为x<sub>jkc</sub>;a<sub>irk</sub>是在步骤(2)中获得的所述单位点SNP标记的加性效应,系数为x<sub>rj</sub>;ε<sub>ijk</sub>是株系j在环境k下第i个性状的随机残差;(4)估算遗传效应:针对步骤(2)得到的单位点SNP标记和步骤(3)得到的二互作上位性SNP标记,采用向前选择法剔除假阳性的单位点SNP标记和二互作上位性SNP标记,得到显著的单位点QTS和二互作上位性QTS的效应系数,将所述效应系数代入步骤(1)中构建全模型,计算得到所述单位点QTS和二互作上位性QTS的遗传效应。
地址 310027 浙江省杭州市西湖区浙大路38号