发明名称 一种差异蛋白质组学的分类方法
摘要 本发明属蛋白质组学分类领域,涉及差异蛋白质组学分类方法。包括:用单变量统计分析、顺序特征选择和遗传算法选择特征,用主成分分析和偏最小二乘法提取特征,并与线性判别分析、k-最近邻分类器、支持向量机、决策树、朴素贝叶斯分类器和人工神经网络分类器串联整合,得系列串联整合分类器并将其并联组合,对各基分类器按分类准确率赋予权重系数,以模糊属性值为分类结果输出形式,得对目标样本的分类判断结果。本方法在差异蛋白质组学的异常和正常样本分类和判断中具有较高的分类准确率和鲁棒性。适用于对差异蛋白质组数据的分类分析。
申请公布号 CN101901345B 申请公布日期 2013.02.27
申请号 CN200910052187.9 申请日期 2009.05.27
申请人 复旦大学 发明人 贺福初;罗凯旋;钟凡;汪海健
分类号 G06K9/62(2006.01)I;G06F19/18(2011.01)I 主分类号 G06K9/62(2006.01)I
代理机构 上海元一成知识产权代理事务所(普通合伙) 31268 代理人 吴桂琴
主权项 一种差异蛋白质组学的分类方法,其特征在于,其包括:使用单变量统计分析、顺序前进法或遗传算法进行特征选择,使用主成分分析和偏最小二乘法进行特征提取,将特征选择和特征提取方法与线性判别分析、k‑最近邻分类器、支持向量机、决策树、朴素贝叶斯分类器和人工神经网络分类器进行串联式整合,得到系列串联整合分类器,将各个串联整合分类器进行并联式的组合,对各个基分类器按分类准确率赋予权重系数,以模糊属性值作为分类结果的输出形式,得到对目标样本的分类判断结果;其步骤为:1)使用单变量统计分析对特征变量进行初步特征选择;2)在1)的基础上,使用顺序前进法或遗传算法进行特征选择,用交叉验证方法测试,选择对分类有重要作用的特征变量;3)在1)的基础上,使用主成分分析和偏最小二乘进行特征提取,利用主成分提取数据特征代替原始数据特征空间;4)将步骤1)至步骤3)的特征选择和特征提取方法与线性判别分析、k‑最近邻分类器、支持向量机、决策树、朴素贝叶斯分类器和人工神经网络分类器依次进行串联式整合,得系列串联整合分类器;5)将步骤4)得到的系列串联整合分类器作为基分类器进行并联式组合,在组合过程中按交叉验证中的分类准确率对各个基分类器赋予权重系数进行加权平均;6)以模糊属性值作为结果的输出形式得到对样本的分类判断结果,通过模糊分类的结果体现待测样本的变化程度以及对该判断的确定程度信息。
地址 200433 上海市邯郸路220号