发明名称 |
使用编辑距离和文档信息进行搜索结果排名 |
摘要 |
一种用于基于查询串从接收到的作为搜索结果的文档中提取文档信息并计算数据串与该查询串之间的编辑距离的体系结构。编辑距离被用来通过检测整个查询或查询的一部分的接近匹配来确定文档的相关性以作为结果排名的一部分。编辑距离评估查询串与包括诸如TAUC(标题、锚文本、URL、点击)信息等文档信息的给定数据流有多接近。该体系结构包括用于允许更高效地发现查询项的、对URL中的混合项进行的索引时间划分。另外,锚文本的索引时间过滤被用来寻找文档结果中的一个或多个的前N个锚。TAUC信息可被输入到神经网络(例如,2层)以改进用于对搜索结果进行排名的相关性度量。 |
申请公布号 |
CN101990670A |
申请公布日期 |
2011.03.23 |
申请号 |
CN200980112928.6 |
申请日期 |
2009.03.10 |
申请人 |
微软公司 |
发明人 |
V·坦科维奇;H·李;D·梅耶泽;J·徐 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I;G06F17/21(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海专利商标事务所有限公司 31100 |
代理人 |
顾嘉运;钱静芳 |
主权项 |
一种计算机实现的相关性系统(100),包括:处理组件(102),用于基于查询串从接收到的作为搜索结果的文档中提取文档信息;以及邻近度组件(112),用于计算数据串与所述查询串之间的编辑距离,所述编辑距离被用于确定文档的相关性作为结果排名的一部分。 |
地址 |
美国华盛顿州 |