发明名称 |
一种蛋白质鉴定的大规模分布式并行加速方法及其系统 |
摘要 |
本发明有关于一种蛋白质鉴定的大规模分布式并行加速方法及其系统,其中该方法包括:步骤1,用并行处理方法,对蛋白质序列进行理论酶切得到肽序列,对肽序列进行排序、去冗余处理,以创建肽索引文件块;步骤2,对质谱谱图进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块;步骤3,将谱图数据块平均分配给多个主进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定;步骤4,用并行处理方法,汇总鉴定结果,利用鉴定得到的肽序列推断对应的蛋白质序列,生成输出文件。本发明在处理器核规模达到几百甚至超过千个以上,进行蛋白质鉴定能取得满意的加速效率。 |
申请公布号 |
CN102411666A |
申请公布日期 |
2012.04.11 |
申请号 |
CN201010292060.7 |
申请日期 |
2010.09.26 |
申请人 |
中国科学院计算技术研究所 |
发明人 |
王乐珩;王文平;迟浩;吴妍洁;周郴;付岩;孙瑞祥;贺思敏 |
分类号 |
G06F19/00(2011.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F19/00(2011.01)I |
代理机构 |
北京律诚同业知识产权代理有限公司 11006 |
代理人 |
祁建国;梁挥 |
主权项 |
一种蛋白质鉴定的大规模分布式并行加速方法,其特征在于,包括:步骤1,输入蛋白质序列,采用并行处理方法对所述蛋白质序列进行理论酶切得到肽序列,对所述肽序列按照理论母离子质量进行排序、去冗余处理,以创建肽索引文件块,并根据所述肽索引文件块生成肽索引元数据文件;步骤2,输入质谱谱图,对所述质谱谱图按照实验母离子质量进行排序,并将排序后的质谱谱图进行平均划分,得到多个谱图数据块,并根据所述谱图数据块生成质谱元数据文件;步骤3,将所述谱图数据块平均分配给多个主进程,各主进程管理多个从进程,各主进程对所分配的谱图数据块进行排序,依次指派给空闲的从进程进行肽谱匹配鉴定,并当所述肽索引文件块不止一块时,将同一个所述谱图数据块分配给多个从进程,由该多个从进程遍历单块所述肽索引文件块进行肽谱匹配鉴定;步骤4,采用并行处理方法,汇总鉴定结果,利用鉴定到的肽序列推断对应的蛋白质序列,生成输出文件。 |
地址 |
100080 北京市海淀区中关村科学院南路6号 |