发明名称 一种基于树搜索和片段组装的蛋白质结构预测方法
摘要 一种基于树搜索和片段组装的蛋白质结构预测方法,包括以下步骤:A1、获取蛋白质的pdb格式的文件并清洗出所需数据;A2、生成片段库;A3、选取力场模型;A4、采用Rosetta的score3能量函数;A5、将整个能量图景离散化,并将每层进一步离散化,分成单独的分块区,每次搜索根据能量的权重随机选取一个能量层,并在该能量层依概率选取一个分块区,如果分块区中包含有构象,采用片段组装方法,随机选取序列上的一个片段,然后在片段库中随机选取一个片段,替换序列上的目标片段,用蒙特卡洛准则来判断是否接受这个构象,如果接受则将它放入一个集合当中。本发明可以大大减少计算量和计算时间,保证搜索到能量较低的构象。
申请公布号 CN103984878B 申请公布日期 2017.01.18
申请号 CN201410138175.9 申请日期 2014.04.08
申请人 浙江工业大学 发明人 张贵军;陈铭;秦传庆;郝小虎;周晓根;梅珊;李章维
分类号 G06F19/16(2011.01)I 主分类号 G06F19/16(2011.01)I
代理机构 杭州斯可睿专利事务所有限公司 33241 代理人 王利强
主权项 一种基于树搜索和片段组装的蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:A1、获取蛋白质的pdb格式的文件并清洗出所需数据;A2、生成片段库;A3、选取力场模型,力场模型表示形式如下:E<sub>protein</sub>=W<sub>inter</sub> <sub>rep</sub>E<sub>inter</sub> <sub>rep</sub>+W<sub>inter</sub> <sub>atr</sub>E<sub>inter</sub> <sub>atr</sub>+W<sub>solvation</sub>E<sub>solvation</sub>+W<sub>bb/sc</sub> <sub>hb</sub>E<sub>bb/sc</sub> <sub>hb</sub>+W<sub>bb/bb</sub> <sub>hb</sub>E<sub>bb/bb</sub> <sub>hb</sub>+W<sub>sc/sc</sub> <sub>hb</sub>E<sub>sc/sc</sub> <sub>hb</sub>+W<sub>pair</sub>E<sub>pair</sub>+W<sub>dunbrack</sub>E<sub>dunbrack</sub>+W<sub>rama</sub>E<sub>rama</sub>+W<sub>reference</sub>E<sub>reference</sub>     (1)式中,E<sub>protein</sub>表示蛋白质的总能量,E<sub>inter</sub> <sub>rep</sub>表示范德华排斥力作用,W<sub>inter</sub> <sub>rep</sub>为E<sub>inter</sub> <sub>rep</sub>在整体的权重,E<sub>inter</sub> <sub>atr</sub>表示范德华吸引力作用,W<sub>inter</sub> <sub>atr</sub>为E<sub>inter</sub> <sub>atr</sub>在整体的权重,E<sub>solvation</sub>为Lazarids和Karplus描述的隐含的溶解作用,W<sub>solvation</sub>为E<sub>solvation</sub>在整体的权重,E<sub>bb/sc</sub> <sub>hb</sub>、E<sub>bb/bb</sub> <sub>hb</sub>、E<sub>sc/sc</sub> <sub>hb</sub>为依赖方向的氢键能量,W<sub>bb/sc</sub> <sub>hb</sub>、W<sub>bb/bb</sub> <sub>hb</sub>、W<sub>sc/sc</sub> <sub>hb</sub>分别为其能量在整体的权重,E<sub>pair</sub>为残基对静电作用,W<sub>pair</sub>为E<sub>pair</sub>在整体的权重,E<sub>dunbrack</sub>为氨基酸基于旋转异构体库的内部的能量,W<sub>dunbrack</sub>为E<sub>dunbrack</sub>在整体的权重,E<sub>rama</sub>为参考特定位置的Ramachandrin骨链扭力,W<sub>rama</sub>为E<sub>rama</sub>在整体的权重,E<sub>reference</sub>为未折叠态的蛋白质的参考能量,W<sub>reference</sub>为E<sub>reference</sub>在整体的权重,Rosetta的能量函数就是将所有的能量项通过各自的权重线性相加;用于计算能量层的权重W(l)的公式:<maths num="0001"><math><![CDATA[<mrow><mi>W</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow><mo>=</mo><msubsup><mi>E</mi><mrow><mi>p</mi><mi>r</mi><mi>o</mi><mi>t</mi><mi>e</mi><mi>i</mi><mi>n</mi></mrow><mn>2</mn></msubsup><mo>+</mo><mfrac><mn>1.0</mn><msup><mn>2</mn><mn>22</mn></msup></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001008545080000011.GIF" wi="1062" he="117" /></maths>W(l)为第L层的权重值,E<sub>protein</sub>是蛋白质构象的能量值,该能量层被选中的概率P(l)为:<maths num="0002"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>W</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></mrow><mrow><munderover><mo>&Sigma;</mo><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mn>100</mn></munderover><mi>W</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001008545080000012.GIF" wi="974" he="179" /></maths>某一个分块区被选中的的概率P(cell)为:<maths num="0003"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><mi>c</mi><mi>e</mi><mi>l</mi><mi>l</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1.0</mn><mrow><mo>&lsqb;</mo><mrow><mo>(</mo><mn>1.0</mn><mo>+</mo><mi>n</mi><mi>s</mi><mi>e</mi><mi>l</mi><mo>)</mo></mrow><mo>*</mo><mi>n</mi><mi>c</mi><mi>o</mi><mi>n</mi><mi>f</mi><mi>s</mi><mo>&rsqb;</mo></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001008545080000021.GIF" wi="1078" he="127" /></maths>其中nsel记录的是该分块区被选中的次数,nconfs记录的是绑定到该分块区上的构象的数目;A4、选取能量函数,采用Rosetta的score3能量函数;A5、蛋白质结构预测过程如下:Step1:初始化工作,导入各种程序运行所需的包和模块,氨基酸序列的初始化,创建相应的文件夹存放低能量的构象和相关数据和图表,创建MC对象和Mover对象;Step2:进入迭代循环,给定迭代次数,由迭代次数控制循环次数;Step3:根据权重函数选择相应的能量层,权重函数列表由公式(2)动态生成并扩展,E<sub>protein</sub>由score3函数计算得出并放入一个能量列表中;Step4:依概率随机选中特定的分块区,概率由公式(4)计算得出;Step5:首先判断该分块区中是否存在构象,如果存在则取出该构象;Step6:对取出的蛋白质构象进行扰动,也就是片段组装,随机选取该构象中的一段长度为3的片段,然后随机选取片段库中与其序列相同的片段,其本质就是替换该片段的3个二面角的值;Step7:用蒙特卡洛评判标准判断构象是否接受;如果接受则放入集合,不接受则跳转到Step2,进入下一次迭代,直到循环次数达到设定的循环值则停止。
地址 310014 浙江省杭州市下城区朝晖六区潮王路18号