发明名称 主题区讨论的自动发现聚集和组织
摘要 一种聚集服务使用种子搜索查询、种子URL和/或搜索引擎数据来聚集对给定主题区内的事件和主题的讨论。选择主题区并手动地生成与该主题区相关的一组种子搜索查询和/或种子URL。使用该组种子搜索查询和/或种子URL来标识包含与该主题区相关的内容的URL。以给定时间间隔爬行URL以标识内容项,使用分类器来分析这些内容项以标识与该主题区相关的内容项。将内容项编组成围绕主题区内的事件和/或主题的聚类。将各聚类相对于彼此进行排名以便于对聚类进行排序来呈现给最终用户。
申请公布号 CN102117321A 申请公布日期 2011.07.06
申请号 CN201110008374.4 申请日期 2011.01.05
申请人 微软公司 发明人 P·R·贝利;D·R·施瓦茨
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 杨洁;钱静芳
主权项 一个或多个存储计算机可使用指令的计算机存储介质,当该指令由一个或多个计算设备执行时使得所述一个或多个计算设备执行一种方法,所述方法包括:接收包括一个或多个输入搜索查询的初始一组搜索查询,所述一个或多个输入搜索查询被手动地确定为与给定主题区相关;通过分析搜索引擎会话数据以标识与所述一个或多个输入搜索查询相关的多个附加搜索查询,来生成已扩展的一组搜索查询,所述扩展的一组搜索查询包括所述一个或多个输入搜索查询和所述多个附加搜索查询;使用所述已扩展的一组搜索查询以标识与所述给定主题区相关的多个URL;周期性地爬行与所述多个URL相关联的文档,以提供来自所述URL的多个内容项;使用分类器来从所述多个内容项标识相关的内容项,所述相关的内容项由所述分类器确定为与所述给定主题区相关;将所述相关的内容项群集成多个聚类,每一聚类包括与所述给定主题区内的特定事件或主题相关联的一组内容项,其中群集是至少部分地基于所述相关的内容项之间的超链接来执行的;将所述多个聚类相对于彼此进行排名,其中所述多个聚类是至少部分地基于从社交网络站点到与所述相关的内容项的URL的超链接的存在来排名的;以及生成允许用户查看并与所述多个聚类进行交互的用户界面。
地址 美国华盛顿州