发明名称 一种基于查询语义和点击流数据的查询建议方法
摘要 本发明涉及一种基于查询语义和点击流数据的查询建议方法,包括以下步骤:一、对收集的查询日志数据进行预处理;二、对用户输入的查询数据进行分词、过滤停用词的预处理;三、将用户查询数据串与查询日志库中日志信息逐条进行相似度计算;四、基于知网中的词概念相关度计算方法,将用户查询数据串与查询日志库中日志信息逐条进行语义相关度计算;五、将相似度和语义相关度进行融合,计算用户查询数据串与查询日志库中每条日志信息的查询语义相关度;六、按照步骤五中的相关度由大到小,取出Top-N推荐给用户。本发明可以有效的消除查询歧义,并对输入错误进行提醒,提高信息检索系统的易用性和交互能力。
申请公布号 CN102253982B 申请公布日期 2013.03.20
申请号 CN201110172766.4 申请日期 2011.06.24
申请人 北京理工大学 发明人 彭学平;牛振东;黄胜
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于查询语义和点击流数据的查询建议方法,包括以下步骤:一、对收集的查询日志数据进行预处理,去掉非中文查询串、乱码数据及无意义的符号,形成规范的查询日志库;二、对用户输入的查询数据进行分词、过滤停用词的预处理,形成包含多个关键词的查询数据串;三、将用户查询数据串与查询日志库中日志信息逐条进行相似度计算;四、基于知网中的词概念相关度计算方法,将用户查询数据串与查询日志库中日志信息逐条进行语义相关度计算,具体方法为:将用户查询数据串以及查询日志库中的每条日志信息均表示为规范化向量V(q)=(t1,w1;t2,w2;…;tn,wn),其中ti为特征项,wi为ti在q中的权值;查询向量V(q)中的每个元素的权值wi由下面公式来计算, <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>freq</mi> <mi>i</mi> </msub> <mrow> <mi>max</mi> <mo>{</mo> <msub> <mi>freq</mi> <mi>j</mi> </msub> <mo>|</mo> <mi>j</mi> <mo>=</mo> <mrow> <mo>(</mo> <mn>1,2</mn> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>}</mo> </mrow> </mfrac> </mrow>其中,freqi表示查询特征项ti在查询q中的出现频率,而查询字符串q中总共包含n个特征项;设用户查询数据串为V(q1)=(t1,w1;t2,w2;…;tn,wn),查询日志库中的一条日志信息为V(q2)=(t1,w1;t2,w2;…;tm,wm),则其语义相关度为: <mrow> <mi>ConcRel</mi> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>q</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&CenterDot;</mo> <mi>Sim</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>其中i∈[1,n],j∈[1,m],Sim(ti,tj)是知网定义的词之间的概念相似度;如果该词语不在知网的语义库中,则其概念相似度定义为0;五、将步骤三和步骤四计算出的相似度和语义相关度进行融合,计算用户查询数据串与查询日志库中每条日志信息的查询语义相关度;进行融合的方法为:Sim(q1,q2)=α·SimKeywords(q1,q2)+(1‑α)·Conc Rel(q1,q2)其中SimKeywords(q1,q2)是步骤三得到的相似度,ConcRel(q1,q2)是步骤四得到的语义相关度,a是平衡系数,其取值范围在[0,1]范围内;六、按照步骤五中的查询语义相关度由大到小,取出Top‑N推荐给用户。
地址 100081 北京市海淀区中关村南大街5号