发明名称 一种逐步回归基因调控网络的推断方法
摘要 本发明公开了一种逐步回归基因调控网络的推断方法,该方法步骤如下:A.读取基因表达数据矩阵和基因扰动数据矩阵;B.确定基因表达数据矩阵和基因扰动数据矩阵是否均为标准化数据;C.对基因表达数据矩阵和基因扰动数据据矩阵分别进行数据归一化均构成标准化数据;D.分析标准化数据,计算所有基因间相关系数矩阵;E.将基因间相关系数矩阵可视化成网络,得到基因调控网络图。该方法能进行最优回归子集的选择,1.因此解决了高维小样本实验数据的问题;2.为目标基因逐步选择最具显著影响的调控子,符合了基因调控网络的真实情况;3.随着基因调控网络规模的增大和网络稀疏度的增加,在计算精度、计算效率上均优于同类方法。
申请公布号 CN101719195B 申请公布日期 2011.07.20
申请号 CN200910199850.8 申请日期 2009.12.03
申请人 上海大学 发明人 张武;张律文;肖梅;谢江;宋安平;何冰
分类号 G06F19/12(2011.01)I 主分类号 G06F19/12(2011.01)I
代理机构 上海上大专利事务所(普通合伙) 31205 代理人 陆聪明
主权项 1.一种逐步回归基因调控网络的推断方法,其特征在于,该方法具体步骤如下:A.读取基因表达数据矩阵和基因扰动数据矩阵;B.确定基因表达数据矩阵和基因扰动数据矩阵是否均为标准化数据,若基因表达数据矩阵和基因扰动数据据矩阵均为标准化数据,则转步骤D,否则转步骤C;C.对基因表达数据矩阵和基因扰动数据据矩阵分别进行数据归一化,使基因表达数据矩阵和基因扰动数据据矩阵均构成标准化数据,其归一化公式为:<maths num="0001"><![CDATA[<math><mrow><msub><mi>x</mi><mi>ij</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>x</mi><mi>ij</mi></msub><mo>-</mo><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mi>j</mi></msub></mrow><msqrt><msubsup><mi>L</mi><mi>jj</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msubsup></msqrt></mfrac><mo>,</mo><mi>i</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>N</mi><mo>;</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>M</mi></mrow></math>]]></maths><maths num="0002"><![CDATA[<math><mrow><msub><mi>p</mi><mi>ij</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>p</mi><mi>ij</mi></msub><mo>-</mo><msub><mover><mi>p</mi><mo>&OverBar;</mo></mover><mi>j</mi></msub></mrow><msqrt><msubsup><mi>L</mi><mi>jj</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup></msqrt></mfrac><mo>,</mo><mi>i</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>N</mi><mo>;</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>M</mi></mrow></math>]]></maths>其中,x<sub>ij</sub>为基因表达数据矩阵中的元素;<img file="FSB00000480687200013.GIF" wi="41" he="55" />为基因表达数据矩阵中第j列元素的平均数;<img file="FSB00000480687200014.GIF" wi="106" he="83" />为x<sub>j</sub>的离差平方和;N为基因的数量,M为基因扰动的实验次数;p<sub>ij</sub>为基因扰动数据矩阵中的元素;<img file="FSB00000480687200015.GIF" wi="49" he="56" />为基因扰动数据矩阵中第j列元素的平均数;<img file="FSB00000480687200016.GIF" wi="113" he="84" />为p<sub>j</sub>的离差平方和;D.分析标准化数据,用多重线性回归计算所有基因间相关系数矩阵,其具体步骤如下:D1.N个基因中的基因i选择第一个调控子;D2.对基因i选择第二个调控子;D3.终止引入新的调控子,完成基因i的回归模型的建立,得到基因i与其调控子之间的调控系数;E.将基因间相关系数矩阵可视化成网络,得到基因调控网络图。
地址 200444 上海市宝山区上大路99号