主权项 |
1.一种挖掘查询语句子话题并聚类的信息搜索方法,其步骤包括:1)对原始查询语句和查询日志中的历史查询语句分别分词,得到查询词序列;2)将对所述历史查询语句分词后得到的查询词序列作为候选子话题,计算所述候选子话题与所述原始查询语句的相似度;3)利用语义词典找出原始查询语句的同义表达方式并作为扩展查询语句,计算所述候选子话题与所述扩展查询语句的相似度,并用该相似度修正步骤2)所得的相似度;4)利用每个所述历史查询语句在所述查询日志中出现的次数修正步骤3)最终得出的相似度,然后计算每个所述历史查询语句与所述原始查询语句的点击相似度,并用该点击相似度进一步修正步骤3)最终得出的相似度;所述点击相似度采用如下公式计算:<maths num="0001"><![CDATA[<math><mrow><mi>CL</mi><mrow><mo>(</mo><msub><mi>P</mi><mi>i</mi></msub><mo>,</mo><mi>Q</mi><mo>)</mo></mrow><mo>=</mo><mi>f</mi><mrow><mo>(</mo><mfrac><mrow><mo>|</mo><msub><mi>U</mi><msub><mi>P</mi><mi>i</mi></msub></msub><mo>∩</mo><msub><mi>U</mi><mi>Q</mi></msub></mrow><mrow><mo>|</mo><msub><mi>U</mi><msub><mi>P</mi><mi>i</mi></msub></msub><mo>|</mo><mo>+</mo><mo>|</mo><msub><mi>U</mi><mi>Q</mi></msub><mo>|</mo></mrow></mfrac><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>其中,集合<img file="FDA00002466643200012.GIF" wi="56" he="56" />和U<sub>Q</sub>分别为用户在查询历史查询语句P<sub>i</sub>和原始查询语句Q时点击的所有url;<img file="FDA00002466643200013.GIF" wi="285" he="123" />为单调上升函数;5)根据相似度的预设阀值对所述候选子话题进行筛选,得到最终子话题;6)对所述最终子话题进行聚类,并根据聚类后的子话题间的包含关系构建树形层次结构;7)搜索引擎按照所述树形层次结构对检索结果进行分类,用户通过选择所述树形层次结构的不同叶子节点来获得不同分类粒度的检索结果。 |