发明名称 |
以用户历史优化WEB爬取 |
摘要 |
一种优雅管理器基于由客户端web浏览器上的插件或工具栏所生成并且发送的历史上的日志数据来估计到站点的业务量。所述历史上的日志数据详述所述web浏览器访问不同web站点的日期和时间,所述历史上的日志数据被用来理解特定web站点什么时间帧是忙碌的并且所述web站点什么时间帧不是忙碌的。对于web站点的针对不同时间帧的爬取速率基于所述历史上的日志数据被确定,并且web爬取器被调度来根据所述爬取速率来爬取所述web站点以便最小化web爬取器请求对站点崩溃有责任的机会。 |
申请公布号 |
CN103718171B |
申请公布日期 |
2016.11.09 |
申请号 |
CN201280038672.0 |
申请日期 |
2012.07.31 |
申请人 |
微软技术许可有限责任公司 |
发明人 |
D.M.维尔曼;F.卡内尔;B.什亚姆库马;C.(X.) 张 |
分类号 |
G06F17/00(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/00(2006.01)I |
代理机构 |
永新专利商标代理有限公司 72002 |
代理人 |
王英 |
主权项 |
一种用于爬取web站点的方法,包括:在服务器处从多个web浏览器接收日志数据,所述日志数据指示通过所述web浏览器访问所述web站点的用户;在服务器处使用所述日志数据来估计在时间帧期间到所述web站点的业务量;由服务器基于业务量的估计来确定在所述时间帧期间对于所述web站点的页面请求的门限频率;在服务器处确定在所述时间帧期间的低于页面请求的门限频率的爬取速率;以及使用所述爬取速率来调度一个或多个web爬取器来请求所述web站点。 |
地址 |
美国华盛顿州 |