发明名称 基于峰强度识别能力的蛋白质二级质谱鉴定方法
摘要 本发明公开了一种基于峰强度识别能力的蛋白质二级质谱鉴定方法,该方法首先虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引,接着根据待分析实验图谱中母离子去电荷后的质量数在建立的肽段数据库中找出符合要求的候选肽段,再对待分析实验图谱进行去同位素峰和选取有效峰,产生符合要求的候选肽段的理论图谱,统计不同离子的峰强度信息,并计算出不同离子类型在不同区间内峰强度识别能力,对每个候选肽段基于峰强度识别能力进行打分,选择最高得分的肽段作为此实验图谱鉴定结果,最后对鉴定结果进行质量控制。该方法鉴定有效质谱的数量和蛋白质肽段数量均高于目前现有算法,且可动态选峰,运行速度快。
申请公布号 CN104076115B 申请公布日期 2015.12.30
申请号 CN201410299214.3 申请日期 2014.06.26
申请人 云南民族大学 发明人 陈晓舟;肖传乐;郑凯;李华梅;李慧敏
分类号 G01N30/72(2006.01)I;G01N30/86(2006.01)I;G06F19/00(2011.01)I 主分类号 G01N30/72(2006.01)I
代理机构 广州华进联合专利商标代理有限公司 44224 代理人 曾凤云;万志香
主权项 一种基于峰强度识别能力的蛋白质二级质谱鉴定方法,其特征在于,包括如下步骤:(1)虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引;(2)根据待分析实验图谱中母离子去电荷后的质量数在步骤(1)所述的肽段数据库中找出符合要求的候选肽段;(3)对待分析实验图谱进行去同位素峰和选取有效峰;(4)产生符合要求的候选肽段的理论图谱;(5)统计不同离子的峰强度信息,并计算出不同离子类型在不同区间内峰强度识别能力,具体包括如下步骤:1)将峰强度归一化,并将归一化后峰强度所在区域根据不同离子类型划分为12个区间,仅考虑b、b‑H<sub>2</sub>O、b‑NH<sub>3</sub>、y、y‑H<sub>2</sub>O、y‑NH<sub>3</sub>六种离子类型;2)统计每一实验质谱峰不同离子类型在不同的强度区间内正确匹配与错误匹配上候选肽段的数量,并定义该离子类型在该区间上的强度识别能力,计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>T</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>N</mi><mrow><mo>(</mo><msub><mi>r</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>)</mo></mrow></mrow><mrow><mi>N</mi><mrow><mo>(</mo><msub><mi>e</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000819623790000011.GIF" wi="242" he="160" /></maths>其中,j代表第j个区间(j∈[1,12],j∈Z<sup>+</sup>);i代表第i种离子类型(i∈{b,b‑H<sub>2</sub>O,b‑NH<sub>3</sub>,y,y‑H<sub>2</sub>O,y‑NH<sub>3</sub>});T<sub>ij</sub>代表离子类型i在区间j中的强度识别能力;N(r<sub>ij</sub>)代表离子类型i在区间j中正确匹配峰的数目;N(e<sub>ij</sub>)代表离子类型i在区间j中错匹配峰的数目;(6)对每个候选肽段基于峰强度识别能力进行打分,选择最高得分的肽段作为此实验图谱鉴定结果,并对鉴定结果进行判定;打分过程包括:基于强度识别能力匹配打分,基于强度识别能力连续匹配打分以及基于强度识别能力b,y离子匹配打分,具体如下:1)基于强度识别能力离子匹配打分:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>S</mi><mn>0</mn></msub><mo>=</mo><mfrac><msub><mi>k</mi><mn>0</mn></msub><mrow><mn>01811</mn><msub><mi>n</mi><mn>0</mn></msub></mrow></mfrac><munder><mo>&Sigma;</mo><mi>l</mi></munder><msub><mi>I</mi><mi>l</mi></msub></mrow>]]></math><img file="FDA0000819623790000012.GIF" wi="404" he="185" /></maths>其中,k<sub>0</sub>是实验图谱与理论图谱匹配峰的数目;n<sub>0</sub>是理论图谱峰数目;<img file="FDA0000819623790000021.GIF" wi="109" he="114" />是匹配峰离子强度识别能力之和;0.1811为随机匹配概率值,等于随机肽段实验图谱匹配峰数目除以理论图谱峰数目;2)基于强度识别能力连续匹配打分:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>S</mi><mn>1</mn></msub><mo>=</mo><mfrac><msub><mi>k</mi><mn>1</mn></msub><mrow><mn>0.0828</mn><msub><mi>n</mi><mn>1</mn></msub></mrow></mfrac><munder><mo>&Sigma;</mo><mi>l</mi></munder><mrow><mo>(</mo><msub><mi>I</mi><mi>m</mi></msub><mo>+</mo><msub><mi>I</mi><mi>p</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000819623790000022.GIF" wi="541" he="149" /></maths>其中,多个离子的连续匹配将转化成多个两个离子的连续匹配;k<sub>1</sub>是实验图谱连续匹配峰数目;n<sub>1</sub>是理论图谱连续匹配峰数目,<img file="FDA0000819623790000023.GIF" wi="250" he="115" />是第m和p个峰构成了一个连续匹配,两个连续匹配峰强度识别能力之和;0.0828为随机匹配概率值,随机肽段实验图谱连续匹配峰数目除以理论连续峰数目;3)基于强度识别能力b,y离子匹配打分:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>S</mi><mn>2</mn></msub><mo>=</mo><mfrac><mrow><msub><mi>k</mi><mn>2</mn></msub><mo>(</mo><munder><mo>&Sigma;</mo><mi>l</mi></munder><mrow><msub><mi>Ib</mi><mi>l</mi></msub></mrow><mo>+</mo><munder><mo>&Sigma;</mo><mi>l</mi></munder><mrow><msub><mi>Iy</mi><mi>l</mi></msub><mo>)</mo></mrow></mrow><mrow><mn>0.0604</mn><msub><mi>n</mi><mn>2</mn></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000819623790000024.GIF" wi="481" he="186" /></maths>其中,k<sub>2</sub>是b,y离子实验图谱与理论图谱匹配峰数目;n<sub>2</sub>是理论图谱b,y峰数目;<img file="FDA0000819623790000025.GIF" wi="230" he="116" />是匹配b,y离子峰对应的强度识别能力之和;0.0604是随机匹配概率值,等于随机肽段b、y离子匹配峰数目除以其理论b、y离子峰数目4)基于强度识别能力总分函数:Sp=0.01*(S<sub>0</sub>+S<sub>1</sub>+S<sub>2</sub>)。
地址 650031 云南省昆明市一二一大街134号