发明名称 |
多类不平衡基因组学数据迭代集成特征选择方法及系统 |
摘要 |
本发明公开多类不平衡基因组学数据迭代集成特征选择方法及系统。本发明针对多类标基因组学数据存在数据分布不平衡的特点,提出了一种迭代式的特征选择方法,在一对多集成分类器的基础上,将欠采样或过采样和特征选择迭代运行,使子数据集的样本随着特征数量的递减,逐渐达到平衡状态。采用此过程集成后的分类器可以明显提高对小类样本的分类识别能力。由于采用集成学技术,集成基于子平衡数据训练的弱分类器为强分类器,可以明显提高分类准确率。 |
申请公布号 |
CN105389480A |
申请公布日期 |
2016.03.09 |
申请号 |
CN201510925559.X |
申请日期 |
2015.12.14 |
申请人 |
深圳大学 |
发明人 |
杨峻山;纪震;朱泽轩;周家锐;殷夫 |
分类号 |
G06F19/18(2011.01)I |
主分类号 |
G06F19/18(2011.01)I |
代理机构 |
深圳市君胜知识产权代理事务所 44268 |
代理人 |
王永文;刘文求 |
主权项 |
一种多类不平衡基因组学数据迭代集成特征选择方法,其特征在于,包括步骤:A、将多类不平衡基因组学数据分为K份具有两类样本的子数据集;B、对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选择的数量随迭代过程逐渐减少到指定数量;C、将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子数据;D、将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的分类器;E、根据训练好的K个分类器,将每个分类器投票集成为最后的强分类器。 |
地址 |
518060 广东省深圳市南山区南海大道3688号 |