发明名称 一种分布式爬虫系统及其实现方法
摘要 本发明公开了一种分布式爬虫系统,该系统包括页面采集模块、目标url采集模块、调度监控模块和存储目标url队列模块。该系统通过增加了一个调度节点,把爬取逻辑和监控逻辑分离,并对全局调控,一旦发现主爬虫节点出现异常,马上分配另一新节点取代为主节点。另外,本发明把缓存目标url队列改为持久化存储目标url队列,同时增加一个已处理url队列,对于所有的爬取需求,url统一存放。此外,本发明还提供了一种分布式爬虫系统的实现方法。通过本发明能够适时地调控,增强系统的健壮性,同时也节省资源,增强爬虫的效率。
申请公布号 CN106021608A 申请公布日期 2016.10.12
申请号 CN201610466951.7 申请日期 2016.06.22
申请人 广东亿迅科技有限公司 发明人 余虎;潘嘉朋;张郭强;徐少强
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种分布式爬虫系统,其特征在于,所述系统包括:页面采集模块、目标url采集模块、调度监控模块和存储目标url队列模块;页面采集模块,其通过从目标url队列提取信息,提取成功后目标url插入已处理url队列,采集到的信息存储到mongodb集群;目标url采集模块,通过主爬虫获取符合已定义规则的url,并把该url压入目标url队列;调度监控模块,贯穿整个系统,与每个模块都直接联系,并监控爬虫状态信息和集群状态信息;存储目标url队列模块,包括两个队列:目标url队列和已处理url队列。
地址 510635 广东省广州市天河区中山大道109号1号楼13层