发明名称 |
一种自定义职责链及后置处理模块的分布式爬虫框架 |
摘要 |
本发明属于互联网广告技术领域,提供了一种自定义职责链及后置处理模块的分布式爬虫框架,包括:创建各种不同类型的任务,每一个任务对应一个不同的任务名称;定义职责链的接口模块;定义后置处理类;采用多机器、多进程抓取多个url,根据任务名称,推送多个不同的url,当任务名称不存在时,重复上述步骤;根据任务名称,得到并处理职责链;完成多个url的抓取后,根据任务名称,得到并执行后置处理类,进行保存文件或其它处理。本发明是在一个系统中定义多个职责链,每个职责链对应一个任务名称,即克服了现有技术中每个任务名称就要对应一套爬虫系统的限制,通用性更强,降低了内存的占用,对软硬件的要求降低,降低了运行和管理成本。 |
申请公布号 |
CN105589949A |
申请公布日期 |
2016.05.18 |
申请号 |
CN201510958023.8 |
申请日期 |
2015.12.18 |
申请人 |
晶赞广告(上海)有限公司 |
发明人 |
汤奇峰;王万宝;汤丽萍 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海国智知识产权代理事务所(普通合伙) 31274 |
代理人 |
潘建玲 |
主权项 |
一种自定义职责链及后置处理模块的分布式爬虫框架,其特征在于,包括如下步骤:第一步,创建各种不同类型的任务,每一个任务对应一个不同的任务名称;第二步,定义职责链的接口模块,框架能自适应地处理各个接口模块,每一接口模块的输出都与下一接口模块的输入相对应;第三步,定义后置处理类,后置处理类根据不同的任务名称,处理第一步中已抓取的url对应的内容;对于所述第一步中已抓取的url,经过职责链处理后,会产生多条数据,后置处理类是针对处理后的多条数据的自定义处理方法;第四步,采用多机器、多进程从第四步的队列中抓取多个url,根据任务名称,推送多个不同的url至队列中待用,当任务名称不存在时,则重复所述第一步至第三步创建新的任务;第五步,根据任务名称,得到职责链,分别处理职责链;第六步,完成多个url的抓取后,根据任务名称,得到后置处理类,执行后置处理类,将已抓取的url进行保存文件或其它处理。 |
地址 |
200072 上海市闸北区灵石路695号25幢1101室 |