一种精确的语料类别标注方法及装置,申请号CN201310163422.6-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种精确的语料类别标注方法及装置
摘要	本发明提供了一种精确的语料类别标注方法及装置，其中所述方法包括：A.将具有初始标注类别的全部语料分为n份，其中1份语料作为校验语料，其余n-1份语料作为训练语料，且n为大于1的正整数；B.提取训练语料的代表性特征；C.对训练语料的代表性特征进行机器学，以得到分类模型；D.采用所述分类模型对校验语料进行分类，得到校验语料的二次标注类别；E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正；F.从所述n份语料中选取1份未曾校正的语料作为校验语料，其余n-1份语料作为训练语料，返回所述步骤B。通过上述方式，本发明能够降低语料标注中的错误，提高语料标注的准确性。
申请公布号	CN104142912A	申请公布日期	2014.11.12
申请号	CN201310163422.6	申请日期	2013.05.07
申请人	百度在线网络技术(北京)有限公司	发明人	李成洲;徐兴军
分类号	G06F17/27(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构	北京鸿德海业知识产权代理事务所(普通合伙) 11412	代理人	袁媛
主权项	一种精确的语料类别标注方法，包括：A.将具有初始标注类别的全部语料分为n份，其中1份语料作为校验语料，其余n‑1份语料作为训练语料，且n为大于1的正整数；B.提取训练语料的代表性特征；C.对训练语料的代表性特征进行机器学习，以得到分类模型；D.采用所述分类模型对校验语料进行分类，得到校验语料的二次标注类别；E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正；F.从所述n份语料中选取1份未曾校正的语料作为校验语料，其余n‑1份语料作为训练语料，返回所述步骤B。
地址	100085 北京市海淀区上地十街10号百度大厦

您可能感兴趣的专利

Combined Measured Resection Methods and Instruments for Knee Arthroplasty

TISSUE ANCHOR WITH INSERTION DEVICE

ESTIMATION OF ACOUSTIC LEVEL IN-SITU WITH NON-FUNDAMENTAL ANALYSIS

DEVICE FOR ULTRASOUND-SUPPORTED REFLECTION AND TRANSMISSION TOMOGRAPHY

X-RAY IMAGING DEVICE AND X-RAY IMAGE FORMING METHOD

SYSTEM & METHOD FOR ESTIMATING SUBSTANCE CONCENTRATIONS IN BODILY FLUIDS

DEVICES FOR DETECTING OR FILTERING TUMOR CELLS

IMPEDANCE DEVICES AND METHODS OF USING THE SAME TO OBTAIN LUMINAL ORGAN MEASUREMENTS

HEADGEAR WITH DISPLACABLE SENSORS FOR ELECTROPHYSIOLOGY MEASUREMENT AND TRAINING

IDENTIFYING AMBIGUOUS CARDIAC SIGNALS FOR ELECTROPHYSIOLOGIC MAPPING

PULSE TRANSMISSION TIME MEASURING APPARATUS AND BIOLOGICAL STATE ESTIMATING APPARATUS

VITAL SIGNS INFORMATION MEASURING APPARATUS AND VITAL SIGNS INFORMATION MEASURING METHOD

SYSTEM AND METHOD FOR IMPROVED LIGHT DELIVERY TO AND FROM SUBJECTS

OPTICAL IMAGE MEASURING APPARATUS

ENDOSCOPE APPARATUS

TOILET APPARATUS AND METHOD OF USE

SHOWER DOOR GUIDE ASSEMBLY

FIBER OPTIC LIGHT GUIDE FOR GENERATING ILLUMINATED INDICIA FOR AN ELECTRIC BURNER OF A HEATING APPLIANCE

ORNAMENT WITH BACKLIT FILM IMAGE