发明名称 分布式网络爬虫任务调度的方法及系统
摘要 本发明互联网搜索引擎技术领域,提供了一种分布式网络爬虫任务调度的方法及其系统,其中,方法包括:对分布式网络爬虫集群进行配置;第一爬虫分析第一层链接对应的网页,提取网页中存在的第二层链接;根据Hash一致性算法分配与第二层链接对应的爬取任务;如果第二层链接是分配给第一爬虫之外的爬虫,则将第二层链接对应的爬取任务记录到相应序号的爬虫对应的爬取任务文件中;每隔预定的时间间隔将爬取任务文件打包上传到共享目录中;每个爬虫定时到共享目录中提取并执行对应的爬取任务。本发明提供的分布式网络爬虫任务调度的方法及其系统,通过共享任务目录来实现分布式爬虫任务的协同任务调度,能把任务均匀分布到各个爬虫。
申请公布号 CN103514301A 申请公布日期 2014.01.15
申请号 CN201310504193.X 申请日期 2013.10.24
申请人 深圳市同洲电子股份有限公司 发明人 何学敏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种分布式网络爬虫任务调度的方法,其特征在于,包括:对分布式网络爬虫集群进行配置的步骤;第一爬虫分析第一层链接对应的网页,提取网页中存在的第二层链接的步骤;根据Hash一致性算法分配与所述第二层链接对应的爬取任务的步骤;如果所述第二层链接是分配给第一爬虫之外的爬虫,则将所述第二层链接对应的爬取任务记录到相应序号的爬虫对应的爬取任务文件中的步骤;每隔预定的时间间隔将所述第一爬虫之外的爬虫对应的爬取任务文件打包上传到共享目录中的步骤;以及每个爬虫定时到所述共享目录中提取并执行对应的爬取任务的步骤。
地址 518057 广东省深圳市南山区高新科技园北区彩虹科技大厦