发明名称 |
一种搜索需求识别的方法和装置 |
摘要 |
本发明提供了一种搜索需求识别的方法和装置,其中方法包括:S1、获取待识别query;S2、获取所述待识别query的搜索结果,确定搜索结果文本的各n元词组(n-gram)并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到所述待识别query的核心词向量;S3、分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度,根据相似度的计算结果确定所述待识别query的需求类型。通过本发明能够提高搜索需求识别的准确性。 |
申请公布号 |
CN102999520B |
申请公布日期 |
2016.04.27 |
申请号 |
CN201110273327.2 |
申请日期 |
2011.09.15 |
申请人 |
北京百度网讯科技有限公司 |
发明人 |
黄际洲 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
袁媛 |
主权项 |
一种搜索需求识别的方法,其特征在于,该方法包括:S1、获取待识别query;S2、获取所述待识别query的搜索结果,确定搜索结果文本的各n元词组n‑gram并基于各n‑gram在搜索结果文本中的出现状况确定各n‑gram的权重,得到所述待识别query的核心词向量;其中,所述基于各n‑gram在搜索结果文本中的出现状况确定各n‑gram的权重具体包括:根据n‑gram在搜索结果文本中的词频TF以及对应n值为n‑gram赋予权重;或者,根据n‑gram在搜索结果文本中出现的句子数、与待识别query共现的句子数、待识别query在搜索结果文本中出现的句子数以及n‑gram的逆向文档频率IDF为n‑gram赋予权重;S3、分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度,根据相似度的计算结果确定所述待识别query的需求类型。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦2层 |