发明名称 |
网络内容异步抓取系统和方法 |
摘要 |
本发明提出一种网络异步抓取系统和方法,该网络异步抓取系统包括任务队列管理器,用于提供至少一个任务队列;调度器,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度;驱动器,用于被调度器触发之后,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值;执行器,用于从抓取池中读取URL,并对URL进行抓取。通过本发明能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。 |
申请公布号 |
CN106599094A |
申请公布日期 |
2017.04.26 |
申请号 |
CN201611053534.6 |
申请日期 |
2016.11.24 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
卢刚;孙鹏宇;覃安 |
分类号 |
G06F17/30(2006.01)I;G06F9/48(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京清亦华知识产权代理事务所(普通合伙) 11201 |
代理人 |
宋合成 |
主权项 |
一种网络内容异步抓取系统,其特征在于,包括:任务队列管理器,用于提供至少一个任务队列;调度器,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据所述URL所属任务所在后端的环境类型来触发驱动器对所述URL进行调度;驱动器,用于被所述调度器触发之后,读取所述URL所属任务的任务信息,基于所述任务信息将所述URL注入抓取池,并根据所述任务信息控制所述URL注入所述抓取池的频率,所述任务信息包括每秒查询率和并发值;执行器,用于从所述抓取池中读取所述URL,并对所述URL进行抓取。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦三层 |