发明名称 |
一种精确的语料类别标注方法及装置 |
摘要 |
本发明提供了一种精确的语料类别标注方法及装置,其中所述方法包括:A.将具有初始标注类别的全部语料分为n份,其中1份语料作为校验语料,其余n-1份语料作为训练语料,且n为大于1的正整数;B.提取训练语料的代表性特征;C.对训练语料的代表性特征进行机器学,以得到分类模型;D.采用所述分类模型对校验语料进行分类,得到校验语料的二次标注类别;E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正;F.从所述n份语料中选取1份未曾校正的语料作为校验语料,其余n-1份语料作为训练语料,返回所述步骤B。通过上述方式,本发明能够降低语料标注中的错误,提高语料标注的准确性。 |
申请公布号 |
CN104142912A |
申请公布日期 |
2014.11.12 |
申请号 |
CN201310163422.6 |
申请日期 |
2013.05.07 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
李成洲;徐兴军 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
袁媛 |
主权项 |
一种精确的语料类别标注方法,包括:A.将具有初始标注类别的全部语料分为n份,其中1份语料作为校验语料,其余n‑1份语料作为训练语料,且n为大于1的正整数;B.提取训练语料的代表性特征;C.对训练语料的代表性特征进行机器学习,以得到分类模型;D.采用所述分类模型对校验语料进行分类,得到校验语料的二次标注类别;E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正;F.从所述n份语料中选取1份未曾校正的语料作为校验语料,其余n‑1份语料作为训练语料,返回所述步骤B。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦 |