发明名称 | 通过局部均值保持实现类数据平衡的方法 | ||
摘要 | 本发明公开了一种通过局部均值保持实现类数据平衡的方法,1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据;4)将新数据标记为少数类,并与原数据合并得到平衡的两类数据;5)平衡后的两类数据用于后续处理,即训练分类算法,实现对新的未标记数据的分类。本发明可以提高医疗诊断的准确率、提高网络攻击的识别率、提高服务器故障的识别率、提高垃圾网页的识别率等。 | ||
申请公布号 | CN102495901A | 申请公布日期 | 2012.06.13 |
申请号 | CN201110424646.9 | 申请日期 | 2011.12.16 |
申请人 | 山东师范大学 | 发明人 | 张化祥;张悦童 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 济南圣达知识产权代理有限公司 37221 | 代理人 | 张勇 |
主权项 | 一种通过局部均值保持实现类数据平衡的方法,其特征是,1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据;4)将新数据标记为少数类,并与原数据一并作为训练数据,训练分类算法,实现对数据的分类。 | ||
地址 | 250014 山东省济南市历下区文化东路88号 |