发明名称 预测蛋白质之间信号流走向的方法
摘要 本发明公开了一种预测蛋白质之间信号流走向的方法。该方法包括以下步骤:S1,建立蛋白质之间信号流走向的标准数据集;S2,分别将阳性数据集和阴性数据集中的上游蛋白质与下游蛋白质的第一氨基酸序列信息中的特征值进行数值运算,得到相互作用对应的第二氨基酸序列信息;S3,利用假设检验方法,计算阳性数据集和阴性数据集中的第二氨基酸序列信息的差异显著性P值;S4,将差异显著性P值小于预定阈值的序列信息作为分类特征,建立分类模型;S5,对分类模型的分类效果进行评估,如果分类模型评估满足预设标准,结束建模过程;否则,返回步骤S4,对分类模型进行校正。应用本发明的技术方案,可以不受蛋白质是否包含结构域的限制。
申请公布号 CN103577722B 申请公布日期 2016.07.06
申请号 CN201310552227.2 申请日期 2013.11.08
申请人 中国人民解放军国防科学技术大学 发明人 刘伟;谢红卫
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 长沙智嵘专利代理事务所 43211 代理人 黄子平
主权项 一种预测蛋白质之间信号流走向的方法,其特征在于,包括以下步骤:S1,从信号转导数据库中收集有向的调控关系,建立蛋白质之间信号流走向的标准数据集,从所述标准数据集中随机选择一半信号流走向的数据作为阳性数据集,剩余一半的信号流走向取反得到的数据作为阴性数据集;S2,分别提取所述阳性数据集和所述阴性数据集中蛋白质所包含的第一氨基酸序列信息,并分别将所述阳性数据集和所述阴性数据集中的上游蛋白质与下游蛋白质的所述第一氨基酸序列信息中的特征值进行数值运算,得到所述阳性数据集和所述阴性数据集中的相互作用对应的第二氨基酸序列信息;S3,利用假设检验方法,计算所述阳性数据集和所述阴性数据集中的所述第二氨基酸序列信息的差异显著性P值;所述假设检验方法为T检验,假设为H<sub>0</sub>:u<sub>g1</sub>=u<sub>g2</sub>,即假设所述阳性数据集和所述阴性数据集中某个序列属性的均值是相等的,与之对应的备选假设是H<sub>1</sub>:u<sub>g1</sub>≠u<sub>g2</sub>,T统计量的计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>t</mi><mi>g</mi></msub><mo>=</mo><mfrac><mrow><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mrow><mi>g</mi><mn>1</mn></mrow></msub><mo>-</mo><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mrow><mi>g</mi><mn>2</mn></mrow></msub></mrow><msqrt><mrow><msubsup><mi>s</mi><mrow><mi>g</mi><mn>1</mn></mrow><mn>2</mn></msubsup><mo>/</mo><msub><mi>n</mi><mn>1</mn></msub><mo>+</mo><msubsup><mi>s</mi><mrow><mi>g</mi><mn>2</mn></mrow><mn>2</mn></msubsup><mo>/</mo><msub><mi>n</mi><mn>2</mn></msub></mrow></msqrt></mfrac></mrow>]]></math><img file="FDA0000931621280000011.GIF" wi="460" he="166" /></maths>其中<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mrow><mi>g</mi><mi>i</mi></mrow></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>i</mi></msub></munderover><msub><mi>x</mi><mrow><mi>g</mi><mi>i</mi><mi>j</mi></mrow></msub><mo>/</mo><msub><mi>n</mi><mi>i</mi></msub><mo>,</mo><msubsup><mi>s</mi><mrow><mi>g</mi><mi>i</mi></mrow><mn>2</mn></msubsup><mo>=</mo><mfrac><mn>1</mn><mrow><msub><mi>n</mi><mi>i</mi></msub><mo>-</mo><mn>1</mn></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>i</mi></msub></munderover><msup><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>g</mi><mi>i</mi><mi>j</mi></mrow></msub><mo>-</mo><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mrow><mi>g</mi><mi>i</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>,</mo></mrow>]]></math><img file="FDA0000931621280000012.GIF" wi="909" he="167" /></maths>n<sub>i</sub>为数据集中相互作用的数目,x<sub>gij</sub>是序列属性g在第i个数据集中第j对相互作用的属性值,n1、n2分别是两组样本的数目,根据统计量t<sub>g</sub>值,得到所述差异显著性P值,如果所述差异显著性P值小于预定阈值,就拒绝零假设,即认为序列特征g在所述阳性数据集和所述阴性数据集的取值有显著差异;S4,将所述差异显著性P值小于预定阈值的序列信息作为分类特征,建立分类模型;S5,采用交叉验证方法或独立测试集,对所述分类模型的分类效果进行评估,如果所述分类模型评估满足预设要求,则所述分类模型建立成功,结束建模过程;否则,返回所述步骤S4,对所述分类模型进行校正。
地址 410073 湖南省长沙市开福区德雅路109号