发明名称 基于直觉模糊集成的数据分类方法与系统
摘要 本发明涉及模式识别领域,公开了一种适用于非平衡数据的基于直觉模糊集成的分类方法和基于该方法的系统。包括:a)清洗原始数据,将原始POS类样本按其类内位置分类,生成POS类人工样本;b)用类间近似平衡的不同样本集训练基分类器;c)将基分类器分类输出等效用转化为直觉模糊矩阵,d)结合基分类器权重集成待分类样本属于POS类、NEG类的隶属度和非隶属度,做出分类决策。本发明具有以下优点:综合过采样和欠采样,避免过学;基分类器的训练样本不同,保证其差异性;对基分类器不做具体限制,具有良好的扩展性;直觉模糊推理方法定量的描述了分类中的不确定性,提高了集成学的性能,因而基于该方法的系统能更好地支持医疗诊断决策等。
申请公布号 CN102402690B 申请公布日期 2016.02.24
申请号 CN201110301869.6 申请日期 2011.09.28
申请人 南京师范大学 发明人 钱钢;王海;黄为民;郑雄燕
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 基于直觉模糊集成的数据分类方法,其特征在于,所述方法包括:步骤101:清洗原始数据集,并将原始POS类样本按其类内位置分类;步骤102:生成POS类人工样本,准备训练数据集;步骤103:为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;步骤104:用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;步骤105:结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策;所述步骤101包括如下步骤:步骤201:初始化NEG类训练样本集合N和POS类的边界样本集合BORDER、邻近边界样本集合NEAR_BD、非边界样本集合NON_BD为空集;步骤202:对于每个NEG类样本(x<sub>i</sub>;‑1),选择其m个最近邻,计算m个最近邻中NEG类样本的比例r;若r≤r<sub>noise</sub>,则认为该样本为噪音,从原始数据集中删除,否则N=N∪{(x<sub>i</sub>;1)},其中向量x<sub>i</sub>为样本数据,‑1为NEG类的类标号,r<sub>noise</sub>为噪音样本的本类近邻比例阀值;步骤203:对于每个POS类样本(x<sub>i</sub>;1),选择其m个最近邻,计算m个最近邻中POS类样本的比例r;若r≤r<sub>border</sub>,则该样本为边界样本,BORDER=BORDER∪{(x<sub>i</sub>;1)};若r<sub>border</sub>&lt;r≤r<sub>nearbd</sub>,则该样本为邻近边界样本,NEAR_BD=NEAR_BD∪{(x<sub>i</sub>;1)};若r&gt;r<sub>nearbd</sub>,则该样本为非边界样本,NON_BD=NON_BD∪{(x<sub>i</sub>;1)};其中向量x<sub>i</sub>为样本数据,1为POS类的类标号,r<sub>border</sub>、r<sub>nearbd</sub>分别为边界样本的本类近邻比例阀值、邻近边界样本的本类近邻比例阀值。
地址 210046 江苏省南京市栖霞区文苑路1号