发明名称 在搜索结果排序中对垃圾的检测
摘要 各实施例涉及使用垃圾简档来排序搜索结果。对于给定文档语料库,可以创建和维护一个或多个垃圾简档。垃圾简档提供了表示已知的垃圾文档的参考度量。例如,垃圾简档可以包括自动地插入到使用特定系统或模板创建的文档中的文档数据的词典。垃圾简档还可以包括已知垃圾文档的特定垃圾变量的分布的一个或多个表示(例如,直方图)。垃圾简档提供已知垃圾文档的可使用的表示,本系统和方法使用垃圾简档来预测语料库中的文档是垃圾的可能性。在各实施例中,计算垃圾分数,并响应于搜索查询,将其用于将这样的文档排序得高一些或低一些。
申请公布号 CN102918532A 申请公布日期 2013.02.06
申请号 CN201180027027.4 申请日期 2011.04.19
申请人 微软公司 发明人 V·坦科维奇;D·梅耶泽;V·波兹南斯基
分类号 G06F17/30(2006.01)I;G06F9/44(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 陈斌
主权项 一种用于响应于搜索查询来对候选文档进行排序的计算机实现的方法,包括下列步骤:由至少第一处理器,创建语料库中的多个文档的索引;使用垃圾简档,计算所述语料库中的至少第一文档的垃圾分数;接收搜索查询;基于所述搜索查询和所述索引,从所述语料库中的所述多个文档中标识候选文档,其中,所述候选文档包括至少所述第一文档;对所述候选文档进行排序。
地址 美国华盛顿州