发明名称 | 一种基于K近邻的支持向量机主动学的方法 | ||
摘要 | 本发明公开了一种基于K近邻的支持向量机主动学的方法,具体步骤为:步骤一:用初始已标注样本集L训练一个初始SVM分类器;步骤二:从未标注样本中找到潜在的高信息含量样本集Sp;步骤三:从Sp中找到信息含量最大的样本;步骤四:将此高信息含量的样本交由专家手工标注后放入已标注样本集L中;步骤五:用更新的已标注样本集L重新训练SVM分类器;步骤六:判断是否满足停止准则,满足则停止迭代,输出训练好的SVM分类器,不满足则重复步骤二至步骤五。本发明基于样本的K近邻来判断样本的信息含量,其对样本信息含量的描述更加准确,因而能找到真正的信息含量大的样本,进而能更好地提高分类器的分类性能。 | ||
申请公布号 | CN103400144A | 申请公布日期 | 2013.11.20 |
申请号 | CN201310300678.7 | 申请日期 | 2013.07.17 |
申请人 | 山东师范大学 | 发明人 | 冷严;徐新艳;齐广慧 |
分类号 | G06K9/62(2006.01)I | 主分类号 | G06K9/62(2006.01)I |
代理机构 | 济南圣达知识产权代理有限公司 37221 | 代理人 | 张勇 |
主权项 | 一种基于K近邻的支持向量机主动学习的方法,其特征是,具体步骤为:步骤一:用初始已标注样本集L训练一个初始SVM分类器;步骤二:用SVM分类器对未标注样本集U中的样本进行分类,取分类间隔内的未标注样本组成潜在的高信息含量样本集Sp;步骤三:对高信息含量样本集Sp内的每个样本,确定每个样本与其K近邻样本所组成的样本集中任意两个样本之间距离的平均值,取平均值最大的样本作为信息含量最大的样本;步骤四:将此高信息含量的样本从未标注样本集U中移除,并交由专家手工标注后放入已标注样本集L中;步骤五:用更新的已标注样本集L重新训练SVM分类器;步骤六:判断是否满足停止准则,满足则停止迭代,输出训练好的SVM分类器,不满足则重复步骤二至步骤五。 | ||
地址 | 250014 山东省济南市历下区文化东路88号 |