发明名称 一种搜索需求识别的方法和装置
摘要 本发明提供了一种搜索需求识别的方法和装置,其中方法包括:S1、获取待识别query;S2、获取所述待识别query的搜索结果,确定搜索结果文本的各n元词组(n-gram)并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到所述待识别query的核心词向量;S3、分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度,根据相似度的计算结果确定所述待识别query的需求类型。通过本发明能够提高搜索需求识别的准确性。
申请公布号 CN102999520B 申请公布日期 2016.04.27
申请号 CN201110273327.2 申请日期 2011.09.15
申请人 北京百度网讯科技有限公司 发明人 黄际洲
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人 袁媛
主权项 一种搜索需求识别的方法,其特征在于,该方法包括:S1、获取待识别query;S2、获取所述待识别query的搜索结果,确定搜索结果文本的各n元词组n‑gram并基于各n‑gram在搜索结果文本中的出现状况确定各n‑gram的权重,得到所述待识别query的核心词向量;其中,所述基于各n‑gram在搜索结果文本中的出现状况确定各n‑gram的权重具体包括:根据n‑gram在搜索结果文本中的词频TF以及对应n值为n‑gram赋予权重;或者,根据n‑gram在搜索结果文本中出现的句子数、与待识别query共现的句子数、待识别query在搜索结果文本中出现的句子数以及n‑gram的逆向文档频率IDF为n‑gram赋予权重;S3、分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度,根据相似度的计算结果确定所述待识别query的需求类型。
地址 100085 北京市海淀区上地十街10号百度大厦2层