发明名称 |
数据样本的特征增强方法和装置及分类器训练方法和装置 |
摘要 |
本发明公开了一种对数据样本进行特征增强的方法和装置以及分类器的训练方法和装置。根据本发明的一个方面,对数据样本进行特征增强的方法包括:针对预设的多个类中的每一类,计算多个数据样本的基准分布;计算所述多个数据样本在特征空间上的特征分布;以及基于所述基准分布和所述特征分布,对属于该类的少数数据样本中的至少一部分数据样本的特征进行修改以增强特征。由此,能够增强不均衡数据集中的少数数据样本的特征,从而使得该不均衡的数据集可用于训练诸如分类器的数据挖掘工具,并取得较好的效果。 |
申请公布号 |
CN106294490A |
申请公布日期 |
2017.01.04 |
申请号 |
CN201510309500.8 |
申请日期 |
2015.06.08 |
申请人 |
富士通株式会社 |
发明人 |
夏迎炬;孙健;侯琴;杨铭 |
分类号 |
G06F17/30(2006.01)I;G06K9/62(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
康建峰;陈炜 |
主权项 |
一种对数据样本进行特征增强的方法,包括:针对预设的多个类中的每一类,计算多个数据样本的基准分布;计算所述多个数据样本在特征空间上的特征分布;以及基于所述基准分布和所述特征分布,对属于该类的少数数据样本中的至少一部分数据样本的特征进行修改以增强特征。 |
地址 |
日本神奈川县 |