发明名称 一种样本标签缺失数据的分类器训练方法
摘要 本发明公开了一种样本标签缺失数据的分类器训练方法,适于处理具有两类样本的分类数据,其中一类样本的标签数据全部缺失.本发明提供一种优化求解技术,将未标记样本的标签可靠性作为待求解的决策变量,基于结构风险最小化原理建立最优化模型.该模型在中小规模数据集上可直接调用非线性规划的工具包予以求解,在大规模数据集上,可用交替搜索算法分别求解两个凸规划子问题,迭代求解模型的两部分变量.本发明在不同数据集上通用性强,在独立的测试集上具有良好的推广性能。
申请公布号 CN106156805A 申请公布日期 2016.11.23
申请号 CN201610818737.3 申请日期 2016.09.12
申请人 中国石油大学(华东) 发明人 梁锡军;夏重杭
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 代理人
主权项 一种样本标签缺失数据的分类器训练方法,包括以下步骤:步骤1.数据预处理;步骤2.求解如下形式的自适应半监督学习模型:<img file="FDA0001112910720000011.GIF" wi="1374" he="110" />s.t.θ<sub>i</sub>=1,i∈Ω<sub>‑</sub>,0≤θ<sub>i</sub>≤1,i∈Ω<sub>+</sub>其中,<img file="FDA0001112910720000012.GIF" wi="173" he="63" />为训练样本,x<sub>i</sub>∈R<sup>d</sup>,y<sub>i</sub>∈{‑1,+1},负类样本点标签为“‑1”,未标记样本的标签为“+1”,Ω<sub>‑</sub>={i|y<sub>i</sub>=‑1},Ω<sub>+</sub>={i|y<sub>i</sub>=+1},<img file="FDA0001112910720000013.GIF" wi="135" he="55" />是待求解的分类函数,<img file="FDA0001112910720000014.GIF" wi="51" he="46" />是待求分类函数所属的再生核Hilbert空间,θ=[θ<sub>1</sub>,...,θ<sub>N</sub>]<sup>T</sup>∈R<sup>N</sup>是模型待求解的决策变量,L(·)是损失函数,<img file="FDA0001112910720000015.GIF" wi="102" he="55" />是关于θ的正则化函数,c<sub>1</sub>>0,c<sub>2</sub>>0,μ>0为常数;步骤3.依据训练得出的分类器f,预测未标记样本的标签。
地址 266580 山东省青岛市黄岛区长江西路66号