发明名称 训练样本的标注方法及装置
摘要 本发明提供一种训练样本的标注方法及装置。本发明实施例通过采用两个相互独立的分类器即第一分类器和第二分类器,对未标注的M个第一训练样本进行协同预测,以获得部分已标注的第一训练样本,无需操作人员参与,操作简单,且正确率高,从而提高了训练样本的标注的效率和可靠性。
申请公布号 CN105447031A 申请公布日期 2016.03.30
申请号 CN201410433020.8 申请日期 2014.08.28
申请人 百度在线网络技术(北京)有限公司 发明人 程惠阁;毛耀宗
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人 袁媛
主权项 一种训练样本的标注方法,其特征在于,包括:将M个未标注的第一训练样本输入第一分类器,以获得所述M个第一训练样本中每个第一训练样本的第一预测结果,M为大于或等于1的整数;根据所述每个第一训练样本的第一预测结果,从所述M个第一训练样本中,选择N个第一训练样本,以作为第二训练样本,N为大于或等于1,且小于或等于M的整数;将所述N个第二训练样本输入第二分类器,以获得所述N个第二训练样本中每个第二训练样本的第二预测结果,所述第一分类器与所述第二分类器之间相互独立;根据所述每个第二训练样本的第二预测结果,从所述N个第二训练样本中,选择P个第二训练样本,P为大于或等于1,且小于或等于N的整数;根据所述M个第一训练样本中除了所述N个第二训练样本之外的其他第一训练样本的第一预测结果和P的取值,从所述其他第一训练样本中,选择Q个第一训练样本,Q为大于或等于1,且小于或等于M‑N的整数;根据所述P个第二训练样本及其中每个第二训练样本的第二预测结果,生成已标注的P个第二训练样本,以及根据所述Q个第一训练样本及其中每个第一训练样本的第一预测结果,生成已标注的Q个第一训练样本。
地址 100085 北京市海淀区上地十街10号百度大厦