发明名称 一种多标签主动学分类方法及系统
摘要 本发明提供了一种多标签主动学分类方法及系统,包括:分别采用对数似然获取已标注样本标签对的似然度及采用熵的方式获取待标注样本标签对的不确定性;分别计算多个相同样本的不同标签间的KL距离及多个不同标签间的权重因子;将每个KL距离和与之相应的权重因子进行乘法运算,获取相应的结果,将多个结果进行相加,获取与待标注样本标签对相关的待标注样本标签对的KL距离和,采用KL距离和确定交叉标签不确定性;确定待标注样本标签对的最终不确定性;进而依据似然度和待标注样本标签对的最终不确定新的样本标签对训练集,并采用新的样本标签对训练集训练分类器。
申请公布号 CN104881689A 申请公布日期 2015.09.02
申请号 CN201510337187.9 申请日期 2015.06.17
申请人 苏州大学张家港工业技术研究院 发明人 赵朋朋;焦阳;吴健;崔志明
分类号 G06K9/62(2006.01)I;G06K9/66(2006.01)I;G06F17/30(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 罗满
主权项 一种多标签主动学习分类方法,其特征在于,包括:分别采用对数似然获取已标注样本标签对的似然度及采用熵的方式获取待标注样本标签对的不确定性;分别计算多个相同样本的不同标签间的KL距离及多个所述不同标签间的权重因子;将每个所述KL距离和与之相应的所述权重因子进行乘法运算,获取相应的结果,将多个所述结果进行相加,获取与待标注样本标签对相关的待标注样本标签对的KL距离和,采用所述KL距离和确定交叉标签不确定性;确定待标注样本标签对的最终不确定性;所述待标注样本标签对的最终不确定性为依据所述交叉标签不确定性和所述待标注样本标签对的不确定性确定的;依据所述似然度和所述待标注样本标签对的最终不确定性获取得分函数,并依据所述得分函数确定最优待标注样本标签对,并对所述最优待标注样本标签对进行标注;将标注完成的所述最优待标注标签对添加到样本标签对训练集以获取新的所述样本标签对训练集,并采用新的所述样本标签对训练集训练分类器。
地址 215600 江苏省苏州市张家港市长泾路10号