发明名称 |
用于识别与Web站点内容相关的项的方法和计算设备 |
摘要 |
本发明描述了用于检验项和Web站点内容之间的相关性的系统和方法。在一个方面中,检索来自投标URL的站点内容。计算在语义上和/或上下文上与投标项相关的扩展项。根据投标项、站点内容和扩展项的各个组合计算内容相似性和扩展相似性度量。考虑到经训练的相似性分类器来确定扩展项和站点内容之间的类别相似性度量。该经训练的相似性分类器已根据挖掘的与目录数据相关联的万维站点内容加以训练了。提供了投标项和站点内容之间的相关性的客观度量的信用度值,是考虑到经训练的相关性分类器模型,根据评估多个相似性得分的内容、扩展和类别相似性度量而确定的。 |
申请公布号 |
CN100476814C |
申请公布日期 |
2009.04.08 |
申请号 |
CN200510078308.9 |
申请日期 |
2005.04.13 |
申请人 |
微软公司 |
发明人 |
B·张;H-J·曾;L·李;T·纳吉姆;马维英;Y·李;陈正 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海专利商标事务所有限公司 |
代理人 |
顾嘉运 |
主权项 |
1、一种用于识别与Web站点内容相关的项的方法,该方法包括:根据投标URL检索站点内容;识别在语义上和/或上下文上与投标项相关的扩展项;根据所述投标项的向量模型和站点内容产生直接内容相似性度量,并根据所述扩展项的向量模型和站点内容产生扩展相似性度量,所述直接内容相似性度量指示了在所述投标项和站点内容之间的的相关度,而所述扩展相似性度量指示了在所述扩展项和站点内容之间的相似度;考虑到相似性分类器,计算扩展项和站点内容之间的类别相似性度量,该相似性分类器已根据挖掘的与目录数据相关的Web站点内容进行了训练;根据多个相似性度量的组合来计算信用度值,所述组合包括直接内容、扩展和类别相似性度量,该信用度值提供了投标项和站点内容之间的相关性的客观度量;根据信用度值将投标项和投标URL缓存到投标数据库中;响应于接收到搜索查询,考虑到搜寻查询的项可能没有与投标项精确地匹配的可能性,确定该搜索查询的项是否与投标项相关;以及如果搜索查询的项确定为与投标项相关,那么就将投标URL发送给最终用户。 |
地址 |
美国华盛顿州 |