发明名称 一种基于概率统计模型的蛋白质二级质谱鉴定方法
摘要 本发明公开了一种基于概率统计模型的蛋白质二级质谱鉴定方法,该方法首先虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引;然后根据待分析实验图谱中母离子的核质比在肽段数据库中找出符合要求的候选肽段,并对找到的所有候选肽段产生符合要求的理论图谱;然后对待分析实验图谱进行去同位素和去噪处理;对处理后的待分析实验图谱和每张候选肽段的理论图谱进行匹配打分,选择分值最高的候选肽段作为此实验图谱的鉴定结果;最后针对所有实验图谱鉴定结果进行整体假阳性控制。该方法鉴定有效质谱的数量和蛋白质肽段数量均高于目前现有算法,且可动态选峰,运行速度快。
申请公布号 CN102495127B 申请公布日期 2013.09.04
申请号 CN201110358552.6 申请日期 2011.11.11
申请人 暨南大学 发明人 肖传乐;马超;刘帅;陈晓舟;何庆瑜
分类号 G01N27/62(2006.01)I 主分类号 G01N27/62(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 杨晓松;裘晖
主权项 1.一种基于概率统计模型的蛋白质二级质谱鉴定方法,其特征在于,包括以下步骤:(1)虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引;(2)根据待分析实验图谱中母离子的核质比在步骤(1)所述的肽段数据库中找出符合要求的候选肽段,并对找到的所有候选肽段产生符合要求的理论图谱;(3)对待分析实验图谱进行去同位素和去噪处理;去噪处理,即除去信号峰中的噪声峰,具体步骤是:(3-2-1)首先选取局部最强峰,包括以下步骤:(3-2-1-1)根据得到的去同位素后的离子峰,找到全局最强峰,然后以此峰为中心,分别向左右各平移50Da,形成一个搜索窗口,在这100Da范围内挑选离子峰强度排名前n位的峰,然后记录这n个峰的信息;(3-2-1-2)以已搜索区域为中心,再分别向左右各平移50Da,在左右各形成1个搜索区域,在这100Da范围内挑选离子峰强度排名前n位的峰,然后记录这n个峰的信息;(3-2-1-3)重复进行(3-2-1-1)和(3-2-1-2)两步,直到该质谱文件所有的质荷比信息被提取完成;(3-2-2)根据步骤(3-2-1-1)得到的全局最强峰,搜索峰值大于等于全局最强峰峰值*0.33的峰,作为全局相对高峰,判断这些峰是否已记录在步骤(3-2-1)中,是则不做处理,否则记录峰的信息;(3-2-3)将选取的局部最强峰和全局相对高峰进行合并,得到最终选取的用于鉴定的峰;(4)将步骤(3)得到的待分析实验图谱和步骤(2)中得到的每张候选肽段的理论图谱进行匹配打分,选择分值最高的候选肽段作为此实验图谱的鉴定结果;具体步骤如下;(4-1)将待分析实验图谱和理论图谱进行匹配打分的具体步骤是:(4-1-1)逐个读取峰信息判断理论图谱和选峰后的实验图谱是否匹配,如果理论图谱与实验图谱对应峰的核质比之差小于等于质谱仪的测量误差,则认为这两个峰匹配,之后记录其匹配的信息;(4-1-2)设E为产生的理论碎片的个数;K为理论图谱和选峰后的实验图谱匹配个数,Q代表随机匹配概率事件,i为随机匹配概率,i=0.01*n,P为在E个理论峰中有K个峰匹配的概率,则P由下面二项式分布概率密度函数计算:<maths num="0001"><![CDATA[<math><mrow><mfenced open='{' close=''><mtable><mtr><mtd><mi>Q</mi><mo>=</mo><mi>i</mi><mo>+</mo><mi>factor</mi></mtd></mtr><mtr><mtd><mi>P</mi><mo>=</mo><mfenced open='(' close=')'><mtable><mtr><mtd><mi>K</mi></mtd></mtr><mtr><mtd><mi>E</mi></mtd></mtr></mtable></mfenced><msup><mi>Q</mi><mi>K</mi></msup><msup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>Q</mi><mo>)</mo></mrow><mrow><mi>E</mi><mo>-</mo><mi>K</mi></mrow></msup></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths><img file="FDA00003341364500022.GIF" wi="760" he="149" />(4-2)将待分析实验图谱和理论图谱进行连续匹配打分的具体步骤是:设E1为理论图谱产生的理论连续匹配个数;K1为实验图谱实际连续匹配的个数;B_factor为背景值,B_factor=统计大量实验图谱连续匹配的平均值/统计大量对应理论图谱连续匹配的平均值,Q1反映了某一图谱在步骤(4-1)匹配情况下连续匹配的概率,P1是在E1个理论连续匹配个数中实际存有K1个连续匹配的概率,由下面二项式分布概率密度函数计算:<maths num="0002"><![CDATA[<math><mrow><mfenced open='{' close=''><mtable><mtr><mtd><mi>Q</mi><mn>1</mn><mo>=</mo><mi>B</mi><mo>_</mo><mi>factor</mi><mo>*</mo><mi>K</mi><mo>/</mo><mi>E</mi></mtd></mtr><mtr><mtd><mi>P</mi><mn>1</mn><mo>=</mo><mfenced open='(' close=')'><mtable><mtr><mtd><mi>K</mi><mn>1</mn></mtd></mtr><mtr><mtd><mi>E</mi><mn>1</mn></mtd></mtr></mtable></mfenced><msup><mrow><mi>Q</mi><mn>1</mn></mrow><mrow><mi>K</mi><mn>1</mn></mrow></msup><msup><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>Q</mi><mn>1</mn><mo>)</mo></mrow><mrow><mi>E</mi><mn>1</mn><mo>-</mo><mi>K</mi><mn>1</mn></mrow></msup></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths>所述待分析实验图谱和理论图谱连续匹配个数具体是指图谱中两两连续匹配的对数;(4-3)对匹配峰强度信息进行分析,求得强度因子,具体步骤是:设M_I为统计所有实验图谱中某两个氨基酸产生的峰大于等于最强峰的33%的个数,设M_E为期望总的离子的个数,则两个氨基酸中间的断裂概率Yi通过下式得到:Yi=M_I/M_E;进而得到强度因子Infactor为:Infactor=(1+Ym+Bm))/(1+0.155*m_p);其中Ym=∑Y<sub>i</sub>;Bm=∑B<sub>i</sub>;Ym、Bm分别为实验图谱强度大于全局最强峰的33%的匹配峰Yi和Bi分值之和;m_p为一张实验图谱中强度大于最强峰的33%的匹配的个数;其中0.155是理论平均匹配值;(4-4)有机组合上述步骤(4-1),(4-2)和(4-3)的打分方法,采用下面公式得到肽段的得分:PEP-S=Infactor*(-10)*log<sub>10</sub><sup>(P*P1)</sup>;(4-5)对计算的PEP-S分数去除背景值,首先设在真实库和随机库统计概率相等时的背景值为其在某种情况下的背景值B_B,背景值B_B是经过贝叶斯网络学习得到的;然后得到去背景值PEP-S_M:PEP-S_M=PEP-S—B_B;(4-6)取出下一个肽段,重复执行步骤(4-1)-(4-5),直到符合此图谱母离子误差的所有肽段均被打分处理;(4-7)对此图谱所有候选肽段的得分PEP-S_M进行排序,值最大的作为当前图谱的鉴定结果;(5)针对所有实验图谱鉴定结果进行整体假阳性控制。
地址 510632 广东省广州市黄埔大道西601号