发明名称 自动检测屏蔽的通用分布式爬虫系统
摘要 本发明属于分布式系统和人工智能技术领域,具体为一种自动检测屏蔽的通用分布式爬虫系统。该系统采用星型网络架构,包括一个核心节点Master和多个从机Slave,核心节点Master控制集群中的从机Slave。本发明中采用全自动检测被屏蔽页面的算法,其通过检测爬虫下载的页面的大小和Token编辑距离的分布的随机性来检测是否出现异常情况,以自动分辨当前获取的页面是否是有效数据。本发明的系统可以自动分辨当前集群中的每台机器是否被屏蔽,以进行更好的任务调度,从而更大程度地利用机器资源和网络资源。
申请公布号 CN103491165A 申请公布日期 2014.01.01
申请号 CN201310431787.2 申请日期 2013.09.22
申请人 复旦大学 发明人 肖仰华;梁家卿;汪卫
分类号 H04L29/08(2006.01)I;H04L12/44(2006.01)I;G06F9/46(2006.01)I 主分类号 H04L29/08(2006.01)I
代理机构 上海正旦专利代理有限公司 31200 代理人 陆飞;王洁平
主权项 一种自动检测屏蔽的通用分布式爬虫系统,其特征在于:该系统采用星型网络架构,包括一个核心节点Master和多个从机Slave,所述核心节点Master控制集群中的从机Slave;其中:核心节点Master负责管理整个集群,包括集群故障状态和被封锁状态的监控、任务管理和调度分发;其通过快照机制来处理单点故障;通过心跳机制检测每一台从机Slave的状态,从而分配调度确保最大程度利用计算资源;从机Slave负责具体的抓取工作,即访问网络和下载页面的过程;从机Slave只作为执行者,只和核心节点Master进行通信,不保存抓取任务的信息。
地址 200433 上海市杨浦区邯郸路220号