发明名称 基于有监督上采样学的蛋白质-核苷酸绑定位点预测方法
摘要 本发明提供一种基于有监督上采样学的蛋白质-核苷酸绑定位点预测方法,包括以下步骤:基于训练集合中的蛋白质序列信息,从进化信息和二级结构视角抽取每个氨基酸残基的特征向量,得到正负样本集,所有绑定核苷酸的氨基酸残基提取为正样本集,所有未绑定核苷酸的氨基酸残基提取为负样本集;使用有监督的上采样学方法对正负样本集中缺失的正样本信息进行补充;使用标准支持向量机算法(SVM),训练得到蛋白质-核苷酸绑定位点SVM预测模型;对于待预测的蛋白质序列信息,使用前述同样的方法抽取每个氨基酸残基的特征向量,输入预测模型,再利用阈值分割方法预测。利用本发明可提高预测精度并防止在不平衡数据集上可能出现的样本信息丢失问题。
申请公布号 CN104077499A 申请公布日期 2014.10.01
申请号 CN201410223569.4 申请日期 2014.05.25
申请人 南京理工大学 发明人 胡俊;於东军;何雪;李阳;沈红斌;杨静宇
分类号 G06F19/16(2011.01)I 主分类号 G06F19/16(2011.01)I
代理机构 南京理工大学专利中心 32203 代理人 朱显国
主权项 一种基于有监督上采样学习的蛋白质‑核苷酸绑定位点预测方法,其特征在于,包括以下步骤: 步骤1:基于输入的蛋白质序列信息,进行多视角特征抽取与特征组合,即分别使用PSI‑BLAST算法抽取蛋白质序列的进化信息,利用PSIPRED算法抽取蛋白质序列的二级结构信息;然后利用滑动窗口方式与特征串行组合方式,将蛋白质序列中的每个氨基酸残基进行多视角特征表示; 步骤2:根据训练数据集合中绑定核苷酸的氨基酸残基与未绑定核苷酸的氨基酸残基的不平衡分布情况,使用有监督的上采样学习方法对缺失的正样本信息进行补充,生成最终的训练样本集合; 步骤3:使用标准的支持向量机模型,在步骤2所得到的训练样本集合中训练产生蛋白质‑核苷酸绑定位点预测模型;以及 步骤4:对于每个待预测蛋白质序列,首先通过步骤1的方式得到该蛋白质序列中的每一个氨基酸残基的多视角特征,然后使用步骤3中的蛋白质‑核苷酸绑定位点预测模型进行绑定概率预测,概率高于指定阈值的氨基酸残基被预测为绑定残基。 
地址 210000 江苏省南京市孝陵卫200号