发明名称 |
一种属性子空间加权的随机森林数据处理方法 |
摘要 |
本发明公开了一种属性子空间加权的随机森林数据处理方法,所述方法包括:S1.对需要进行训练的数据样本集通过有放回抽样的方式抽取跟需要建立的决策树数目一致的N个样本子集;S2.对每个样本子集构建无剪枝的决策树模型,在构建决策树模型的节点时,采用信息增益法先对所有参与节点构建的属性进行加权,从中选出权重最高的M个属性参与节点构建;S3.将构建的N个决策树模型合并成一个大的随机森林模型。本发明将信息增益用于属性子空间加权,使得有用信息能够被抽取,从而提高分类的精度。 |
申请公布号 |
CN104391970A |
申请公布日期 |
2015.03.04 |
申请号 |
CN201410734550.6 |
申请日期 |
2014.12.04 |
申请人 |
深圳先进技术研究院 |
发明人 |
赵鹤;黄哲学;姜青山;吴胤旭;陈会 |
分类号 |
G06F17/30(2006.01)I;G06F9/38(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市铭粤知识产权代理有限公司 44304 |
代理人 |
孙伟峰 |
主权项 |
一种属性子空间加权的随机森林数据处理方法,其特征在于,所述方法包括:S1、对需要进行训练的数据样本集通过有放回抽样的方式抽取跟需要建立的决策树数目一致的N个样本子集;S2、对每个样本子集构建无剪枝的决策树模型,在构建决策树模型的节点时,采用信息增益法先对所有参与节点构建的属性进行加权,从中选出权重最高的M个属性参与节点构建;S3、将构建的N个决策树模型合并成一个大的随机森林模型。 |
地址 |
518055 广东省深圳市南山区西丽大学城学苑大道1068号 |