发明名称 通过局部均值保持实现类数据平衡的方法
摘要 本发明公开了一种通过局部均值保持实现类数据平衡的方法,1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据;4)将新数据标记为少数类,并与原数据合并得到平衡的两类数据;5)平衡后的两类数据用于后续处理,即训练分类算法,实现对新的未标记数据的分类。本发明可以提高医疗诊断的准确率、提高网络攻击的识别率、提高服务器故障的识别率、提高垃圾网页的识别率等。
申请公布号 CN102495901A 申请公布日期 2012.06.13
申请号 CN201110424646.9 申请日期 2011.12.16
申请人 山东师范大学 发明人 张化祥;张悦童
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南圣达知识产权代理有限公司 37221 代理人 张勇
主权项 一种通过局部均值保持实现类数据平衡的方法,其特征是,1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据;4)将新数据标记为少数类,并与原数据一并作为训练数据,训练分类算法,实现对数据的分类。
地址 250014 山东省济南市历下区文化东路88号