发明名称 |
一种分布式爬虫系统及其实现方法 |
摘要 |
本发明公开了一种分布式爬虫系统,该系统包括页面采集模块、目标url采集模块、调度监控模块和存储目标url队列模块。该系统通过增加了一个调度节点,把爬取逻辑和监控逻辑分离,并对全局调控,一旦发现主爬虫节点出现异常,马上分配另一新节点取代为主节点。另外,本发明把缓存目标url队列改为持久化存储目标url队列,同时增加一个已处理url队列,对于所有的爬取需求,url统一存放。此外,本发明还提供了一种分布式爬虫系统的实现方法。通过本发明能够适时地调控,增强系统的健壮性,同时也节省资源,增强爬虫的效率。 |
申请公布号 |
CN106021608A |
申请公布日期 |
2016.10.12 |
申请号 |
CN201610466951.7 |
申请日期 |
2016.06.22 |
申请人 |
广东亿迅科技有限公司 |
发明人 |
余虎;潘嘉朋;张郭强;徐少强 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种分布式爬虫系统,其特征在于,所述系统包括:页面采集模块、目标url采集模块、调度监控模块和存储目标url队列模块;页面采集模块,其通过从目标url队列提取信息,提取成功后目标url插入已处理url队列,采集到的信息存储到mongodb集群;目标url采集模块,通过主爬虫获取符合已定义规则的url,并把该url压入目标url队列;调度监控模块,贯穿整个系统,与每个模块都直接联系,并监控爬虫状态信息和集群状态信息;存储目标url队列模块,包括两个队列:目标url队列和已处理url队列。 |
地址 |
510635 广东省广州市天河区中山大道109号1号楼13层 |