发明名称 一种半监督的最小最大模块化模式分类方法
摘要 本发明公开了一种半监督的最小最大模块化模式分类方法,属于数据挖掘技术领域,该方法是在最小最大模块化网络(即:M3网络)的任务分解阶段所得到的有标记样本子集中加入一部分未标记样本,依据生成式半监督学算法(即:fSSL)的构思,产生含有未标记样本信息的特征,并作为有标记样本的新特征,从而实现了半监督的M3网络。本发明解决了对大规模样本进行标记需要花费大量人力和物力的问题,避免了非监督学中存在的学不稳定问题,并且增强了原始M3网络的学性能。
申请公布号 CN104657743A 申请公布日期 2015.05.27
申请号 CN201510035805.4 申请日期 2015.01.23
申请人 南京邮电大学 发明人 李云;吴燕平;冯丽丽
分类号 G06K9/62(2006.01)I;G06F17/30(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 一种半监督的最小最大模块化模式分类方法,其特征在于,所述方法向M3网络任务分解阶段得到的有标记样本子集中加入未标记样本,利用数据生成模型的隐藏变量来衔接有标记样本与未标记样本,并将隐藏变量与有标记样本的后验概率作为有标记样本的新特征,然后利用Min‑Max集成规则得到原始问题的解,包括如下步骤:步骤1:数据划分;根据M3网络的任务分解原则将原始的有标记样本集划分;同时也将未标记样本集进行等分,其样本子集的个数与有标记样本子集的个数相同;步骤2:未标记样本子集的分配;将未标记样本子集依据子集中心点距离最远的原则无重复地添加到二类有标记样本子集中;此时,每个独立的训练样本子集中包含两部分,一部分是有标记二类样本子集,另一部分是未标记样本子集;步骤3:隐藏特征生成;对于每个训练子集,假定其中的有标记样本与未标记样本都由同一生成式模型产生,且有标记样本和未标记样本的产生过程由隐藏变量z<sub>k</sub>决定;利用概率潜在语义分析PLSA方法求解隐藏变量,将求解得的隐藏变量和有标记样本的后验概率作为该有标记样本的新特征;在添加新特征后的有标记样本子集上训练分类器;步骤4:测试样本的特征空间转换;训练样本的特征空间若已改变,测试样本特征空间也应映射到与训练样本相同的特征空间中,通过提取每个测试样本在训练子集中的最近邻的n个有标记样本,估计出隐藏变量与测试样本的后验概率值作为测试样本的新特征;步骤5:模块化集成;用训练阶段得到的分类器为测试样本预测标签,使用Min‑Max规则将所有基分类器的预测结果进行集成以得到原始问题的解。
地址 210023 江苏省南京市鼓楼区新模范马路66号