发明名称 用于识别细胞外基质蛋白的集成学方法
摘要 本发明公开了用于识别细胞外基质蛋白的集成学方法,数据集建立:建立细胞外基质ECM蛋白序列的训练样本集和独立测试样本集;将训练样本集中的蛋白质序列映射成数值特征向量;采用信息增益率—增量特征选择方法挑选出相对有效的特征子集,采用集成学的方法建立集成分类器模型,以解决数据集不平衡的问题;将独立测试样本集映射成数值特征向量,基于集成分类器模型的预测结果,采用多数表决方法得到测试样本的类别,最终利用所有测试样本的预测结果评价预测系统的性能;本发明开发了用于细胞外基质蛋白识别的网络服务器系统。用户无需理解细胞外基质蛋白识别的具体执行过程,只需输入待预测的蛋白质序列,即可得到预测结果。
申请公布号 CN104331642B 申请公布日期 2017.04.12
申请号 CN201410588610.8 申请日期 2014.10.28
申请人 山东大学 发明人 张承进;杨润涛;高瑞;张丽娜
分类号 G06F19/24(2011.01)I;G06F19/18(2011.01)I 主分类号 G06F19/24(2011.01)I
代理机构 济南圣达知识产权代理有限公司 37221 代理人 张勇
主权项 用于识别细胞外基质蛋白的集成学习方法,其特征是,包括以下步骤:步骤一:数据集建立:建立细胞外基质ECM蛋白序列的训练样本集和独立测试样本集;步骤二:基于序列组成、物理化学属性、进化信息及结构信息,将训练样本集中的蛋白质序列映射成数值特征向量;步骤三:为降低计算复杂度和减少特征的冗余性,采用信息增益率—增量特征选择方法挑选出相对有效的特征子集,以提高评估训练样本集的预测性能;步骤四:采用集成学习的方法建立集成分类器模型,以解决数据集不平衡的问题;步骤五:将独立测试样本集按步骤二的方法映射成数值特征向量,基于集成分类器模型的预测结果,采用多数表决方法得到测试样本的类别,最终利用所有测试样本的预测结果评价预测系统的性能;步骤六:利用用于细胞外基质蛋白识别的网络服务器系统,进行在线识别细胞外基质蛋白;所述步骤四中的分类器模型为随机森林,随机森林通过重采样技术,随机生成训练样本用于训练多个决策树,基于多数表决的方法,独立测试样本的最终预测结果由决策树输出类别的众数而定;所述步骤二中,所述蛋白质序列映射成数值特征向量的方法为:基于序列组成官能团的频率的特征建立策略;基于序列组成信息熵的特征建立策略;基于序列组成氨基酸分布的特征建立策略;基于序列组成氨基酸转换的特征建立策略;基于物理化学属性伪氨基酸组成的特征建立策略;基于物理化学属性离散小波变换的特征建立策略;基于进化信息的特征建立策略;基于进化信息非稳定构象的特征建立策略;基于进化信息二级结构信息的特征建立策略;基于进化信息功能域信息的特征建立策略;所述步骤三中,采用信息增益率—增量特征选择方法挑选出相对有效的特征子集,具体为:利用增量特征选择方法获取最优特征子集,增量特征选择方法从空特征集合开始,按特征的排序从高到低逐一加入到特征集合;每一次加入一个特征,都会产生一个新的特征子集,具有高均衡准确率和低维数的特征子集将被作为预测系统的最终输入特征向量。
地址 250061 山东省济南市历下区经十路17923号