发明名称 |
识别问题类型的方法及装置、建立识别模型的方法及装置 |
摘要 |
本发明提供了一种识别问题类型的方法及装置、建立识别模型的方法及装置,在建立问题识别模型的过程中,基于包含疑问词或需求词的文本片段在类别中的绝对出现频率以及相比较其他类别的相对出现频率来确定其是否属于该类别的特征片段,从而能够准确地定位出包含疑问词或需求词的文本片段所述的类型,提高了问题类型的识别准确性。另外还可以利用问题类别识别模型对训练语料重新进行分类作为更新后的训练语料,通过这种迭代方式逐步优化问题类型识别模型。如果基于该方式进行问题类型识别并用于搜索,则能够进一步提高搜索精度。 |
申请公布号 |
CN103377224B |
申请公布日期 |
2016.08.17 |
申请号 |
CN201210123534.4 |
申请日期 |
2012.04.24 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
方高林 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
袁媛 |
主权项 |
一种建立问题类型识别模型的方法,其特征在于,该方法包括:S1、从训练语料中获取包含疑问词或需求词的文本片段,所述训练语料包含预先划分出类型的问题集合;S2、如果所述文本片段满足预设的条件,则确定所述文本片段为第i个类型的特征片段,所述条件为在第i个类型的问题集合中出现的文档频率大于预设的第一出现频率阈值,且在第i个类型的问题集合中出现的文档频率与其他各类型的问题集合中出现的文档频率的比值均大于预设的比例阈值;S3、针对训练语料中获取到的所有文本片段都执行所述步骤S2后,建立问题类型识别模型,所述问题类型识别模型包括:各类型的特征片段;其中在所述S1中获取一元词,该一元词为一元疑问词或一元需求词;将该一元词作为所述文本片段执行所述步骤S2,如果确定该一元词为第i个类型的特征片段,则不针对该一元词进行扩展,否则将该一元词在训练语料中向前或向后扩展得到二元词;将该二元词作为文本片段执行所述步骤S2,如果确定该二元词为第i个类型的特征片段,则不针对该二元词进行扩展,否则将该二元词在训练语料中进行向前名词扩展或向后名词扩展得到二元组合词项;将该二元组合词项作为文本片段继续执行所述步骤S2。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |