发明名称 针对不平衡数据集的组合降采样线性判别分类方法
摘要 本发明涉及一种针对不平衡数据集的组合降采样线性判别分类方法,包括以下步骤:得到原始数据的不平衡数据集的不平衡率IR;将全部的负样本进行不放回随机抽样,均匀生成IR个不相交的负样本子集,各子集中均包含约个负样本;对于每一个负样本子集,将其分别与全部正样本集组合,此时各子训练集中正负样本数目基本相同,得到IR个平衡的子训练集;分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA。本发明在获得更好的分类性能的同时保持了极高的分类器训练效率。
申请公布号 CN106056130A 申请公布日期 2016.10.26
申请号 CN201610331710.1 申请日期 2016.05.18
申请人 天津大学 发明人 李喆;吕卫;褚晶辉
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 程毓英
主权项 一种针对不平衡数据集的组合降采样线性判别分类方法,设原始数据集中正样本数目为n<sub>p</sub>,负样本数目为n<sub>n</sub>,该方法具体包括以下几个技术步骤:(1)对原始数据集的n<sub>n</sub>和n<sub>p</sub>求四舍五入整数商,得到不平衡数据集的不平衡率IR;(2)将全部的负样本进行不放回随机抽样,均匀生成IR个不相交的负样本子集,各子集中均包含约n<sub>p</sub>个负样本;(3)对于每一个负样本子集,将其分别与全部正样本集组合,此时各子训练集中正负样本数目基本相同,得到IR个平衡的子训练集;(4)分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA;(5)对新样本进行分类,方法如下:将待分类样本输入训练完成后的每一个LDA分类器中,每个LDA分类器对这一样本给出分类结果,通过预先设定决策阈值th来改变分类系统对正负类的关注程度,确定为该样本的最终分类结果。
地址 300072 天津市南开区卫津路92号