发明名称 | 针对不平衡数据集的组合降采样线性判别分类方法 | ||
摘要 | 本发明涉及一种针对不平衡数据集的组合降采样线性判别分类方法,包括以下步骤:得到原始数据的不平衡数据集的不平衡率IR;将全部的负样本进行不放回随机抽样,均匀生成IR个不相交的负样本子集,各子集中均包含约个负样本;对于每一个负样本子集,将其分别与全部正样本集组合,此时各子训练集中正负样本数目基本相同,得到IR个平衡的子训练集;分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA。本发明在获得更好的分类性能的同时保持了极高的分类器训练效率。 | ||
申请公布号 | CN106056130A | 申请公布日期 | 2016.10.26 |
申请号 | CN201610331710.1 | 申请日期 | 2016.05.18 |
申请人 | 天津大学 | 发明人 | 李喆;吕卫;褚晶辉 |
分类号 | G06K9/62(2006.01)I | 主分类号 | G06K9/62(2006.01)I |
代理机构 | 天津市北洋有限责任专利代理事务所 12201 | 代理人 | 程毓英 |
主权项 | 一种针对不平衡数据集的组合降采样线性判别分类方法,设原始数据集中正样本数目为n<sub>p</sub>,负样本数目为n<sub>n</sub>,该方法具体包括以下几个技术步骤:(1)对原始数据集的n<sub>n</sub>和n<sub>p</sub>求四舍五入整数商,得到不平衡数据集的不平衡率IR;(2)将全部的负样本进行不放回随机抽样,均匀生成IR个不相交的负样本子集,各子集中均包含约n<sub>p</sub>个负样本;(3)对于每一个负样本子集,将其分别与全部正样本集组合,此时各子训练集中正负样本数目基本相同,得到IR个平衡的子训练集;(4)分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA;(5)对新样本进行分类,方法如下:将待分类样本输入训练完成后的每一个LDA分类器中,每个LDA分类器对这一样本给出分类结果,通过预先设定决策阈值th来改变分类系统对正负类的关注程度,确定为该样本的最终分类结果。 | ||
地址 | 300072 天津市南开区卫津路92号 |