发明名称 基于内容相关性的反馈式搜索方法及内容相关方法
摘要 本发明公开了一种基于内容相关性的反馈式搜索方法及内容相关方法,该方法包括以下步骤:当收到一个查询请求时,利用主流搜索引擎生成初始查询结果集;当前用户查看查询结果并点击目标网页后,获取该目标网页的ID,并从网页相关性矩阵K中查询出初始结果集中所有网页与目标网页的相关性;将与目标网页相关性最大的网页作为新的查询结果提交给用户。与已有技术相比,本发明避免了学query-sensitive的ranking函数的复杂性取消搜索类别的概念,代以网页级的相关性分析,可解决类别划分的粒度-归属难题;与基于用户个性配置文件跟踪的方法相比,不需长期跟踪特定用户的行为;与基于点击数据直接优化搜索结果的方法相比,可有效解决一义多词和一词多义问题。
申请公布号 CN101256573A 申请公布日期 2008.09.03
申请号 CN200810052580.3 申请日期 2008.04.01
申请人 天津大学 发明人 侯越先
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 天津市北洋有限责任专利代理事务所 代理人 李素兰
主权项 1.一种基于内容相关性的反馈式搜索方法,该方法包括以下步骤:当收到一个查询请求时,利用主流搜索引擎生成初始查询结果集;当前用户查看查询结果并点击目标网页后,获取该目标网页的ID,并从网页相关性矩阵K中查询出初始结果集中所有网页与目标网页的相关性;将与目标网页相关性最大的网页作为新的查询结果提交给用户;其中,网页相关性矩阵K的建立,包括以下步骤:由[0,t]时段的用户点击数据获得一个n×n的网页间的Co-Click矩阵Cn×n;由Cn×n确定一个有向图GC,求解GC上各结点之间的概率可达性,基于矩阵C求解任意两个网页实体间的概率可达性矩阵Mn×n。
地址 300072天津市南开区卫津路92号