发明名称 搜索引擎及其实现方法
摘要 本发明提供一种搜索引擎,其用于分析所述原始查询式,以获取包含存在于原始查询式中的原词及其同义词的潜在同义词对和该潜在同义词对的同义语境,并且将所述同义词替代原始查询式中的原词以获得同义查询式;根据所述原始查询式和同义查询式搜索并获得原始查询结果网页集合与同义查询结果网页集合;获取同义语境的语义主题分布和同义查询结果中网页的语义主题分布,并计算所述两个语义主题分布的匹配度;根据所述匹配度合并原始查询和同义查询的结果网页集合,并生成搜索结果列表。搜索引擎可以判断同义查询结果是否满足用户的潜在需求,避免在搜索结果的前列出现转义结果,确保用户具有良好的使用体验。
申请公布号 CN102722501B 申请公布日期 2015.07.01
申请号 CN201110079873.2 申请日期 2011.03.31
申请人 北京百度网讯科技有限公司 发明人 呼大为
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人 袁媛
主权项 一种搜索引擎的实现方法,其特征在于,该方法包括如下步骤:接收用户搜索的原始查询式;分析所述原始查询式,以获取包含存在于原始查询式中的原词及其同义词的同义词对和该同义词对的同义语境,并且根据所述原始查询式和所述同义语境,将所述同义词替代原始查询式中的原词以获得同义查询式;根据所述原始查询式和同义查询式搜索并获得原始查询结果网页集合与同义查询结果网页集合;获取同义语境的语义主题分布和同义查询结果中网页的语义主题分布,并计算所述两个语义主题分布的匹配度;根据所述匹配度合并原始查询和同义查询的结果网页集合,并生成搜索结果列表;其中,所述同义词对、以及该同义词对的同义语境采用以下步骤挖掘:获取历史的用户查询点击数据,所述数据包括历史的查询式和响应于该查询式而返回的并被点击访问的查询结果网页;识别同义词对,所述同义词对包括存在于所述历史查询式中的原词以及存在于所述查询结果网页中的相应的同义词;至少将所述历史查询记录并确定为所述同义词对的同义语境。
地址 100085 北京市海淀区上地十街10号百度大厦2层