一种搜索需求识别的方法和装置,申请号CN201110273327.2-传众专利搜索

发明名称	一种搜索需求识别的方法和装置
摘要	本发明提供了一种搜索需求识别的方法和装置，其中方法包括：S1、获取待识别query；S2、获取所述待识别query的搜索结果，确定搜索结果文本的各n元词组(n-gram)并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重，得到所述待识别query的核心词向量；S3、分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度，根据相似度的计算结果确定所述待识别query的需求类型。通过本发明能够提高搜索需求识别的准确性。
申请公布号	CN102999520B	申请公布日期	2016.04.27
申请号	CN201110273327.2	申请日期	2011.09.15
申请人	北京百度网讯科技有限公司	发明人	黄际洲
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京鸿德海业知识产权代理事务所(普通合伙) 11412	代理人	袁媛
主权项	一种搜索需求识别的方法，其特征在于，该方法包括：S1、获取待识别query；S2、获取所述待识别query的搜索结果，确定搜索结果文本的各n元词组n‑gram并基于各n‑gram在搜索结果文本中的出现状况确定各n‑gram的权重，得到所述待识别query的核心词向量；其中，所述基于各n‑gram在搜索结果文本中的出现状况确定各n‑gram的权重具体包括：根据n‑gram在搜索结果文本中的词频TF以及对应n值为n‑gram赋予权重；或者，根据n‑gram在搜索结果文本中出现的句子数、与待识别query共现的句子数、待识别query在搜索结果文本中出现的句子数以及n‑gram的逆向文档频率IDF为n‑gram赋予权重；S3、分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度，根据相似度的计算结果确定所述待识别query的需求类型。
地址	100085 北京市海淀区上地十街10号百度大厦2层