发明名称 |
基于两层SVM学机制的蛋白质结晶预测方法 |
摘要 |
本发明提供一种基于两层SVM学机制的蛋白质结晶预测方法。首先,利用PSI-BLAST从蛋白质序列信息中获取蛋白质的进化信息;再从序列信息、蛋白质进化信息、氨基酸物理化学属性等信息中抽取AAC、DiAAC、TriAAC、PseAAC、PsePSSM五种视角特征;然后,使用五种视角特征训练一个两层SVM预测模型(2L-SVM);然后,再使用2L-SVM模型进行预测:(1)将得到的五种视角特征分别输入到2L-SVM中所对应的第一层模型中,将得到五个概率输出输入2L-SVM的第二层预测模型中得到预测概率;最后,使用阈值分割技术得到最终决策。该方法的优点在于:使用五种不同视角的特征,增加有效鉴别信息,提升模型的预测能力;而且使用2L-SVM预测模型,有效的避免不同视角之间相互干扰导致的信息丢失,提高模型的预测精度。 |
申请公布号 |
CN104636635A |
申请公布日期 |
2015.05.20 |
申请号 |
CN201510047426.7 |
申请日期 |
2015.01.29 |
申请人 |
南京理工大学 |
发明人 |
胡俊;於东军;何雪;李阳;沈红斌;杨静宇 |
分类号 |
G06F19/16(2011.01)I;G06F19/24(2011.01)I |
主分类号 |
G06F19/16(2011.01)I |
代理机构 |
南京理工大学专利中心 32203 |
代理人 |
王培松 |
主权项 |
一种基于两层SVM学习机制的蛋白质结晶预测方法,其特征在于,包括以下步骤:步骤1:特征提取,使用PSI‑BLAST提取蛋白质的进化信息,并结合蛋白质序列信息与氨基酸的物理化学属性信息,通过抽取AAC、DiAAC、TriAAC、PseAAC、PsePSSM五个视角特征,将蛋白质序列转换为数值形式表示;步骤2:根据步骤1将训练数据集合中所有的蛋白质序列进行不同视角的特征表示,形成五个不同视角的训练样本集合,然后使用两层SVM预测算法2L‑SVM在五个不同视角的训练样本集合上训练成一个蛋白质结晶2L‑SVM预测模型;步骤3:对于每个待预测结晶能力的蛋白质序列,通过步骤1得到此蛋白质序列五个不同视角的特征,使用步骤2中训练的蛋白质结晶2L‑SVM预测模型进行蛋白质结晶概率预测,最终输出预测概率;以及步骤4:对于步骤3中待预测的蛋白质序列,根据步骤3中的输出概率使用阈值分割方法,最终输出该蛋白质序列是否可结晶的决策。 |
地址 |
210000 江苏省南京市孝陵卫200号 |