发明名称 |
在搜索结果排序中对垃圾的检测 |
摘要 |
各实施例涉及使用垃圾简档来排序搜索结果。对于给定文档语料库,可以创建和维护一个或多个垃圾简档。垃圾简档提供了表示已知的垃圾文档的参考度量。例如,垃圾简档可以包括自动地插入到使用特定系统或模板创建的文档中的文档数据的词典。垃圾简档还可以包括已知垃圾文档的特定垃圾变量的分布的一个或多个表示(例如,直方图)。垃圾简档提供已知垃圾文档的可使用的表示,本系统和方法使用垃圾简档来预测语料库中的文档是垃圾的可能性。在各实施例中,计算垃圾分数,并响应于搜索查询,将其用于将这样的文档排序得高一些或低一些。 |
申请公布号 |
CN102918532B |
申请公布日期 |
2015.12.16 |
申请号 |
CN201180027027.4 |
申请日期 |
2011.04.19 |
申请人 |
微软技术许可有限责任公司 |
发明人 |
V·坦科维奇;D·梅耶泽;V·波兹南斯基 |
分类号 |
G06F17/30(2006.01)I;G06F9/44(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海专利商标事务所有限公司 31100 |
代理人 |
陈斌 |
主权项 |
一种用于响应于搜索查询来对候选文档进行排序的计算机实现的方法,包括下列步骤:由至少第一处理器,创建语料库中的多个文档的索引;计算所述语料库中的至少第一文档的垃圾分数,其中所述计算垃圾分数包括:为语料库中的第一文档生成第一候选直方图,其中所述第一候选直方图特定于所述第一文档;将所述第一候选直方图与垃圾简档进行比较,其中所述垃圾简档包括第一已知垃圾文档的第一参考直方图,所述第一参考直方图特定于所述第一已知垃圾文档并且基于第一垃圾变量;接收搜索查询;基于所述搜索查询和所述索引,从所述语料库中的所述多个文档中标识候选文档,其中,所述候选文档包括至少所述第一文档;对所述候选文档进行排序。 |
地址 |
美国华盛顿州 |