发明名称 |
基于采样学的蛋白质-配体绑定位点预测方法 |
摘要 |
本发明提供了一种基于采样学的蛋白质-配体绑定位点预测方法。首先利用PSI-BLAST与PSIPRED程序获取蛋白质的进化信息和二级结构信息,并使用滑动窗口技术抽取每个氨基酸残基(样本)的特征;其次,利用随机下采样技术,对非绑定位点的样本进行随机下采样,将得到的非绑定位点样本子集与绑定位点样本集训练一个SVM,用于预测所有待预测样本;再次,根据每一个待预测样本的特征信息,利用KNN动态采样学技术,分别对绑定位点样本与非绑定位点样本进行采样学,将采样后的绑定位点样本子集与非绑定位点样本子集合并训练一个特定的SVM,用于预测该待预测样本;最后,使用基于阈值的集成技术对训练好的两个SVM进行集成。该方法的优点在于:一是使用随机下采样与KNN动态采样学技术,可以有效的降低训练集的规模,加快了模型的训练速度;二是使用KNN动态采样学技术,能针对不同的待预测样本训练不同的SVM模型,有效的融入了待预测样本之间的差异性;三是使用SVM集成技术,有效的降低了采样学导致的信息丢失,提高模型预测精度。 |
申请公布号 |
CN104992079A |
申请公布日期 |
2015.10.21 |
申请号 |
CN201510368016.2 |
申请日期 |
2015.06.29 |
申请人 |
南京理工大学 |
发明人 |
胡俊;何雪;李阳;於东军;沈红斌;杨静宇 |
分类号 |
G06F19/18(2011.01)I;G06F19/24(2011.01)I |
主分类号 |
G06F19/18(2011.01)I |
代理机构 |
南京理工大学专利中心 32203 |
代理人 |
朱显国;王培松 |
主权项 |
一种基于采样学习的蛋白质‑配体绑定位点预测方法,其特征在于,包括以下步骤:步骤1:特征提取,使用PSI‑BLAST与PSIPRED程序提取待预测蛋白质的进化信息和二级结构信息,并在此基础上,使用滑动窗口技术,将蛋白质序列中的氨基酸残基转换为特征向量形式表示,再将两种信息的特征向量串行组合得到最终用于预测的特征向量;步骤2:使用随机下采样技术,对非绑定位点的样本进行随机下采样;将得到的非绑定位点样本子集与绑定位点样本集构成一个训练集,在构建的训练集上训练一个SVM;步骤3:对于每个待预测样本,首先使用步骤1的方式进行特征抽取,然后使用KNN动态采样学习技术分别对绑定位点样本与非绑定位点样本进行采样,最后,将采样后的绑定位点样本子集与非绑定位点样本子集合并后训练一个专门用来预测该待预测样本的SVM;以及步骤4:使用基于阈值的集成技术对步骤2与步骤3中得到的两个SVM进行集成。 |
地址 |
210000 江苏省南京市孝陵卫200号 |