发明名称 |
分类器训练方法、类型识别方法及装置 |
摘要 |
本公开揭示了一种分类器训练方法、类型识别方法及装置,属于自然语言处理领域。分类器训练方法包括:从样本信息中提取携带有目标关键字的样本分句;根据每条样本分句是否属于目标类别,对样本分句进行二值标注,得到样本训练集;对样本训练集中的每个样本分句进行分词,得到若干个词语;从若干个词语中提取出指定特征集合,指定特征集合包括至少一个特征词;根据指定特征集合中的特征词构建分类器;根据样本训练集中的二值标注结果对分类器进行训练。由于指定特征集合中的特征词是根据携带有目标关键词的样本分句的分词结果所提取得到的,所以该分类器能够对携带有目标关键词的分句做出较为准确的预测,达到了识别结果较为准确的效果。 |
申请公布号 |
CN105117384A |
申请公布日期 |
2015.12.02 |
申请号 |
CN201510511468.1 |
申请日期 |
2015.08.19 |
申请人 |
小米科技有限责任公司 |
发明人 |
汪平仄;龙飞;张涛 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I;G06K9/62(2006.01)I;G06K9/66(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京三高永信知识产权代理有限责任公司 11138 |
代理人 |
张所明 |
主权项 |
一种分类器训练方法,其特征在于,所述方法包括:从样本信息中提取携带有目标关键字的样本分句;根据每条所述样本分句是否属于目标类别,对所述样本分句进行二值标注,得到样本训练集;对所述样本训练集中的每个所述样本分句进行分词,得到若干个词语;从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述指定特征集合中的所述特征词构建分类器;根据所述样本训练集中的二值标注结果对所述分类器进行训练。 |
地址 |
100085 北京市海淀区清河中街68号华润五彩城购物中心二期13层 |