主权项 |
一种预测蛋白质之间信号流走向的方法,其特征在于,包括以下步骤:S1,从信号转导数据库中收集有向的调控关系,建立蛋白质之间信号流走向的标准数据集,从所述标准数据集中随机选择一半信号流走向的数据作为阳性数据集,剩余一半的信号流走向取反得到的数据作为阴性数据集;S2,分别提取所述阳性数据集和所述阴性数据集中蛋白质所包含的第一氨基酸序列信息,并分别将所述阳性数据集和所述阴性数据集中的上游蛋白质与下游蛋白质的所述第一氨基酸序列信息中的特征值进行数值运算,得到所述阳性数据集和所述阴性数据集中的相互作用对应的第二氨基酸序列信息;S3,利用假设检验方法,计算所述阳性数据集和所述阴性数据集中的所述第二氨基酸序列信息的差异显著性P值;所述假设检验方法为T检验,假设为H<sub>0</sub>:u<sub>g1</sub>=u<sub>g2</sub>,即假设所述阳性数据集和所述阴性数据集中某个序列属性的均值是相等的,与之对应的备选假设是H<sub>1</sub>:u<sub>g1</sub>≠u<sub>g2</sub>,T统计量的计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>t</mi><mi>g</mi></msub><mo>=</mo><mfrac><mrow><msub><mover><mi>x</mi><mo>‾</mo></mover><mrow><mi>g</mi><mn>1</mn></mrow></msub><mo>-</mo><msub><mover><mi>x</mi><mo>‾</mo></mover><mrow><mi>g</mi><mn>2</mn></mrow></msub></mrow><msqrt><mrow><msubsup><mi>s</mi><mrow><mi>g</mi><mn>1</mn></mrow><mn>2</mn></msubsup><mo>/</mo><msub><mi>n</mi><mn>1</mn></msub><mo>+</mo><msubsup><mi>s</mi><mrow><mi>g</mi><mn>2</mn></mrow><mn>2</mn></msubsup><mo>/</mo><msub><mi>n</mi><mn>2</mn></msub></mrow></msqrt></mfrac></mrow>]]></math><img file="FDA0000931621280000011.GIF" wi="460" he="166" /></maths>其中<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mover><mi>x</mi><mo>‾</mo></mover><mrow><mi>g</mi><mi>i</mi></mrow></msub><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>i</mi></msub></munderover><msub><mi>x</mi><mrow><mi>g</mi><mi>i</mi><mi>j</mi></mrow></msub><mo>/</mo><msub><mi>n</mi><mi>i</mi></msub><mo>,</mo><msubsup><mi>s</mi><mrow><mi>g</mi><mi>i</mi></mrow><mn>2</mn></msubsup><mo>=</mo><mfrac><mn>1</mn><mrow><msub><mi>n</mi><mi>i</mi></msub><mo>-</mo><mn>1</mn></mrow></mfrac><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>i</mi></msub></munderover><msup><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>g</mi><mi>i</mi><mi>j</mi></mrow></msub><mo>-</mo><msub><mover><mi>x</mi><mo>‾</mo></mover><mrow><mi>g</mi><mi>i</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>,</mo></mrow>]]></math><img file="FDA0000931621280000012.GIF" wi="909" he="167" /></maths>n<sub>i</sub>为数据集中相互作用的数目,x<sub>gij</sub>是序列属性g在第i个数据集中第j对相互作用的属性值,n1、n2分别是两组样本的数目,根据统计量t<sub>g</sub>值,得到所述差异显著性P值,如果所述差异显著性P值小于预定阈值,就拒绝零假设,即认为序列特征g在所述阳性数据集和所述阴性数据集的取值有显著差异;S4,将所述差异显著性P值小于预定阈值的序列信息作为分类特征,建立分类模型;S5,采用交叉验证方法或独立测试集,对所述分类模型的分类效果进行评估,如果所述分类模型评估满足预设要求,则所述分类模型建立成功,结束建模过程;否则,返回所述步骤S4,对所述分类模型进行校正。 |