发明名称 一种挖掘查询语句子话题并聚类的信息搜索方法
摘要 本发明提供一种挖掘查询语句的子话题,并对子话题进行聚类的信息搜索方法。该方法将原始查询语句和历史查询语句分别分词,得到查询词序列,计算原查询语句与历史查询语句的相似度。进一步可将原查询通过语义词典进行扩展,计算扩展查询语句与历史查询语句的相似度,并修正历史查询语句与原始查询语句的相似度;还可通过历史查询语句的点击信息进一步修正历史查询语句与原始查询语句的相似度。然后通过相似度的预设阀值选出最终子话题,并对其进行聚类以及构建树形的层次结构。用户通过选择树形层次结构的不同叶子节点来获得不同分类粒度的检索结果,方便用户按照话题类别来浏览检索结果。
申请公布号 CN102419778B 申请公布日期 2013.03.20
申请号 CN201210004772.3 申请日期 2012.01.09
申请人 中国科学院软件研究所 发明人 孙乐;江雪
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 余长江
主权项 1.一种挖掘查询语句子话题并聚类的信息搜索方法,其步骤包括:1)对原始查询语句和查询日志中的历史查询语句分别分词,得到查询词序列;2)将对所述历史查询语句分词后得到的查询词序列作为候选子话题,计算所述候选子话题与所述原始查询语句的相似度;3)利用语义词典找出原始查询语句的同义表达方式并作为扩展查询语句,计算所述候选子话题与所述扩展查询语句的相似度,并用该相似度修正步骤2)所得的相似度;4)利用每个所述历史查询语句在所述查询日志中出现的次数修正步骤3)最终得出的相似度,然后计算每个所述历史查询语句与所述原始查询语句的点击相似度,并用该点击相似度进一步修正步骤3)最终得出的相似度;所述点击相似度采用如下公式计算:<maths num="0001"><![CDATA[<math><mrow><mi>CL</mi><mrow><mo>(</mo><msub><mi>P</mi><mi>i</mi></msub><mo>,</mo><mi>Q</mi><mo>)</mo></mrow><mo>=</mo><mi>f</mi><mrow><mo>(</mo><mfrac><mrow><mo>|</mo><msub><mi>U</mi><msub><mi>P</mi><mi>i</mi></msub></msub><mo>&cap;</mo><msub><mi>U</mi><mi>Q</mi></msub></mrow><mrow><mo>|</mo><msub><mi>U</mi><msub><mi>P</mi><mi>i</mi></msub></msub><mo>|</mo><mo>+</mo><mo>|</mo><msub><mi>U</mi><mi>Q</mi></msub><mo>|</mo></mrow></mfrac><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>其中,集合<img file="FDA00002466643200012.GIF" wi="56" he="56" />和U<sub>Q</sub>分别为用户在查询历史查询语句P<sub>i</sub>和原始查询语句Q时点击的所有url;<img file="FDA00002466643200013.GIF" wi="285" he="123" />为单调上升函数;5)根据相似度的预设阀值对所述候选子话题进行筛选,得到最终子话题;6)对所述最终子话题进行聚类,并根据聚类后的子话题间的包含关系构建树形层次结构;7)搜索引擎按照所述树形层次结构对检索结果进行分类,用户通过选择所述树形层次结构的不同叶子节点来获得不同分类粒度的检索结果。
地址 100190 北京市海淀区中关村南四街4号