发明名称 一种通过基因组数据对遗传力进行评估的算法
摘要 本发明公开了一种通过基因组数据对遗传力进行评估的算法,对于某一数量性状,通过使用不同数量的参考群个体利用GBLUP算法进行全基因组的标记效应的估计,进而得到估计群的育种值,并计算出估计准确度;通过基因组估计准确度与参考群体大小进行曲线直线化拟合,拟合出的回归方程的截距的倒数为遗传力的估计值;本发明通过基因组的数据对数量性状的遗传力进行评估,所研究的成果可直接应用于动植物数量性状育种中,本发明的算法不对个体进行系谱记录而是对个体基因组进行测序,通过全基因组标记来预测性状的遗传力,遗传力估计结果主要用于将来的育种工作中,另外,测序可以捕获到孟德尔抽样误差,相对记录系谱数据能够获得更准确的系谱信息。
申请公布号 CN105512510A 申请公布日期 2016.04.20
申请号 CN201510873172.4 申请日期 2015.12.03
申请人 集美大学 发明人 肖世俊;董林松;王志勇
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 北京科亿知识产权代理事务所(普通合伙) 11350 代理人 汤东凤
主权项 一种通过基因组数据对遗传力进行评估的算法,对于某一数量性状,通过使用不同数量的参考群个体进行全基因组的标记效应的估计,进而得到估计群的育种值,并计算出估计准确度;通过基因组估计准确度与参考群体大小进行曲线直线化拟合,拟合出的回归方程的截距的倒数为遗传力的估计值;其特征在于:基因组选择的具体过程采用GBLUP作为计算标记效应的算法,基因组所有标记位点的效应方差是相等的,标记效应通过以下公式计算得出:<math><![CDATA[<mrow><mfenced open = "[" close = "]"><mtable><mtr><mtd><mrow><msup><msub><mn>1</mn><mi>n</mi></msub><mo>&prime;</mo></msup><msub><mn>1</mn><mi>n</mi></msub></mrow></mtd><mtd><mrow><msup><msub><mn>1</mn><mi>n</mi></msub><mo>&prime;</mo></msup><mi>X</mi></mrow></mtd></mtr><mtr><mtd><mrow><msup><mi>X</mi><mo>&prime;</mo></msup><msub><mn>1</mn><mi>n</mi></msub></mrow></mtd><mtd><mrow><msup><mi>X</mi><mo>&prime;</mo></msup><mi>X</mi><mo>+</mo><mi>I</mi><mi>&lambda;</mi></mrow></mtd></mtr></mtable></mfenced><mfenced open = "[" close = "]"><mtable><mtr><mtd><mover><mi>&mu;</mi><mo>^</mo></mover></mtd></mtr><mtr><mtd><mover><mi>g</mi><mo>^</mo></mover></mtd></mtr></mtable></mfenced><mo>=</mo><mfenced open = "[" close = "]"><mtable><mtr><mtd><mrow><msup><msub><mn>1</mn><mi>n</mi></msub><mo>&prime;</mo></msup><mi>y</mi></mrow></mtd></mtr><mtr><mtd><mrow><msup><mi>X</mi><mo>&prime;</mo></msup><mi>y</mi></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000865883990000011.GIF" wi="1131" he="156" /></maths>其中,<img file="FDA0000865883990000012.GIF" wi="48" he="61" />为总体平均值;<img file="FDA0000865883990000013.GIF" wi="40" he="65" />为所有标记位点的效应向量;基因组估计育种值(GEBV)通过将所有标记位点的效应相加获得,即GEBV=∑X<sub>i</sub>g<sub>i</sub>;GEBV估计准确性通过计算GEBV与真实育种值(TBV)的相关系数,即r<sub>(GEBV TBV</sub>)得出;在GBLUP算法估计育种值的情况下,r<sub>(GEBV TBV)</sub>的另一计算公式为:<math><![CDATA[<mrow><msub><mi>r</mi><mrow><mo>(</mo><mrow><mi>G</mi><mi>E</mi><mi>B</mi><mi>V</mi><mo>,</mo><mi>T</mi><mi>B</mi><mi>V</mi></mrow><mo>)</mo></mrow></msub><mo>=</mo><msqrt><mfrac><mrow><msub><mi>N</mi><mi>p</mi></msub><msup><mi>h</mi><mn>2</mn></msup></mrow><mrow><msub><mi>N</mi><mi>p</mi></msub><msup><mi>h</mi><mn>2</mn></msup><mo>+</mo><mi>M</mi></mrow></mfrac></msqrt><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000865883990000014.GIF" wi="1032" he="179" /></maths>其中,N<sub>p</sub>为参考群的个体数量;h<sup>2</sup>为所研究的性状的遗传力;M为决定该性状的有效基因组片段的数目;在实际生产中,无法得知TBV的具体数值,因此用表型值(Y)替代TBV,推导出GEBV与Y的关系为:<math><![CDATA[<mrow><msub><mi>r</mi><mrow><mo>(</mo><mrow><mi>G</mi><mi>E</mi><mi>B</mi><mi>V</mi><mo>,</mo><mi>Y</mi></mrow><mo>)</mo></mrow></msub><mo>=</mo><msub><mi>r</mi><mrow><mo>(</mo><mrow><mi>G</mi><mi>E</mi><mi>B</mi><mi>V</mi><mo>,</mo><mi>T</mi><mi>B</mi><mi>V</mi></mrow><mo>)</mo></mrow></msub><mo>*</mo><mi>h</mi><mo>=</mo><msqrt><mfrac><mrow><msub><mi>N</mi><mi>p</mi></msub><msup><mi>h</mi><mn>2</mn></msup></mrow><mrow><msub><mi>N</mi><mi>p</mi></msub><msup><mi>h</mi><mn>2</mn></msup><mo>+</mo><mi>M</mi></mrow></mfrac></msqrt><mo>*</mo><mi>h</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000865883990000015.GIF" wi="1116" he="166" /></maths>在公式(3)中,通过调整N<sub>p</sub>的大小可获得不同的r<sub>(GEBV,Y)</sub>的值,拟合该曲线方程,拟合的方式采用曲线直线化,对公式(3)进行整理,得到线性方程:<math><![CDATA[<mrow><mfrac><mn>1</mn><msubsup><mi>r</mi><mrow><mo>(</mo><mrow><mi>G</mi><mi>E</mi><mi>B</mi><mi>V</mi><mo>,</mo><mi>Y</mi></mrow><mo>)</mo></mrow><mn>2</mn></msubsup></mfrac><mo>=</mo><mfrac><mn>1</mn><msup><mi>h</mi><mn>2</mn></msup></mfrac><mo>+</mo><mfrac><mi>M</mi><msup><mi>h</mi><mn>4</mn></msup></mfrac><mo>*</mo><mfrac><mn>1</mn><msub><mi>N</mi><mi>p</mi></msub></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000865883990000016.GIF" wi="965" he="141" /></maths>该方程相当于线性回归模型y=a+bx,其中y为r<sub>(GEBV,Y)</sub>的平方的倒数,x为N<sub>p</sub>的倒数,方程的截距a即是遗传力的倒数,通过求该方程的截距的倒数,求出遗传力的估计值。
地址 361000 福建省厦门市集美区银江路185号