发明名称 基于两层SVM学机制的蛋白质结晶预测方法
摘要 本发明提供一种基于两层SVM学机制的蛋白质结晶预测方法。首先,利用PSI-BLAST从蛋白质序列信息中获取蛋白质的进化信息;再从序列信息、蛋白质进化信息、氨基酸物理化学属性等信息中抽取AAC、DiAAC、TriAAC、PseAAC、PsePSSM五种视角特征;然后,使用五种视角特征训练一个两层SVM预测模型(2L-SVM);然后,再使用2L-SVM模型进行预测:(1)将得到的五种视角特征分别输入到2L-SVM中所对应的第一层模型中,将得到五个概率输出输入2L-SVM的第二层预测模型中得到预测概率;最后,使用阈值分割技术得到最终决策。该方法的优点在于:使用五种不同视角的特征,增加有效鉴别信息,提升模型的预测能力;而且使用2L-SVM预测模型,有效的避免不同视角之间相互干扰导致的信息丢失,提高模型的预测精度。
申请公布号 CN104636635A 申请公布日期 2015.05.20
申请号 CN201510047426.7 申请日期 2015.01.29
申请人 南京理工大学 发明人 胡俊;於东军;何雪;李阳;沈红斌;杨静宇
分类号 G06F19/16(2011.01)I;G06F19/24(2011.01)I 主分类号 G06F19/16(2011.01)I
代理机构 南京理工大学专利中心 32203 代理人 王培松
主权项 一种基于两层SVM学习机制的蛋白质结晶预测方法,其特征在于,包括以下步骤:步骤1:特征提取,使用PSI‑BLAST提取蛋白质的进化信息,并结合蛋白质序列信息与氨基酸的物理化学属性信息,通过抽取AAC、DiAAC、TriAAC、PseAAC、PsePSSM五个视角特征,将蛋白质序列转换为数值形式表示;步骤2:根据步骤1将训练数据集合中所有的蛋白质序列进行不同视角的特征表示,形成五个不同视角的训练样本集合,然后使用两层SVM预测算法2L‑SVM在五个不同视角的训练样本集合上训练成一个蛋白质结晶2L‑SVM预测模型;步骤3:对于每个待预测结晶能力的蛋白质序列,通过步骤1得到此蛋白质序列五个不同视角的特征,使用步骤2中训练的蛋白质结晶2L‑SVM预测模型进行蛋白质结晶概率预测,最终输出预测概率;以及步骤4:对于步骤3中待预测的蛋白质序列,根据步骤3中的输出概率使用阈值分割方法,最终输出该蛋白质序列是否可结晶的决策。
地址 210000 江苏省南京市孝陵卫200号