发明名称 一种自定义职责链及后置处理模块的分布式爬虫框架
摘要 本发明属于互联网广告技术领域,提供了一种自定义职责链及后置处理模块的分布式爬虫框架,包括:创建各种不同类型的任务,每一个任务对应一个不同的任务名称;定义职责链的接口模块;定义后置处理类;采用多机器、多进程抓取多个url,根据任务名称,推送多个不同的url,当任务名称不存在时,重复上述步骤;根据任务名称,得到并处理职责链;完成多个url的抓取后,根据任务名称,得到并执行后置处理类,进行保存文件或其它处理。本发明是在一个系统中定义多个职责链,每个职责链对应一个任务名称,即克服了现有技术中每个任务名称就要对应一套爬虫系统的限制,通用性更强,降低了内存的占用,对软硬件的要求降低,降低了运行和管理成本。
申请公布号 CN105589949A 申请公布日期 2016.05.18
申请号 CN201510958023.8 申请日期 2015.12.18
申请人 晶赞广告(上海)有限公司 发明人 汤奇峰;王万宝;汤丽萍
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海国智知识产权代理事务所(普通合伙) 31274 代理人 潘建玲
主权项 一种自定义职责链及后置处理模块的分布式爬虫框架,其特征在于,包括如下步骤:第一步,创建各种不同类型的任务,每一个任务对应一个不同的任务名称;第二步,定义职责链的接口模块,框架能自适应地处理各个接口模块,每一接口模块的输出都与下一接口模块的输入相对应;第三步,定义后置处理类,后置处理类根据不同的任务名称,处理第一步中已抓取的url对应的内容;对于所述第一步中已抓取的url,经过职责链处理后,会产生多条数据,后置处理类是针对处理后的多条数据的自定义处理方法;第四步,采用多机器、多进程从第四步的队列中抓取多个url,根据任务名称,推送多个不同的url至队列中待用,当任务名称不存在时,则重复所述第一步至第三步创建新的任务;第五步,根据任务名称,得到职责链,分别处理职责链;第六步,完成多个url的抓取后,根据任务名称,得到后置处理类,执行后置处理类,将已抓取的url进行保存文件或其它处理。
地址 200072 上海市闸北区灵石路695号25幢1101室