发明名称 网页爬虫抓取规则替换方法、调度端和抓取端
摘要 本发明公开一种网页爬虫抓取规则替换方法、调度端和抓取端。其中,网页爬虫抓取规则替换方法包括:向抓取网络信息的抓取端发送抓取任务,所述抓取任务包括待抓取网站,以及与所述待抓取网站对应的调度端抓取规则文件的调度端版本号;向所述抓取端发送待切换规则文件和所述待切换规则网站,所述待切换规则文件用于所述抓取端将保存在所述抓取端与所述待切换规则网站对应的抓取端抓取规则文件,替换为所述待切换规则文件。本发明在抓取端将抓取规则采用了规则文件独立保存,替换时只需要替换规则文件而无需整个抓取端进行重启。同时,采用了调度端对所有的规则文件进行统一管理保存,因此,无需对每个抓取端单独上传规则文件,避免管理混乱。
申请公布号 CN103488795A 申请公布日期 2014.01.01
申请号 CN201310471399.7 申请日期 2013.10.10
申请人 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 发明人 廖耀华;黎小为
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京邦信阳专利商标代理有限公司 11012 代理人 王昭林;金玺
主权项 一种网页爬虫抓取规则替换方法,其特征在于,包括:向抓取网络信息的抓取端发送抓取任务,所述抓取任务包括待抓取网站,以及与所述待抓取网站对应的调度端抓取规则文件的调度端版本号;接收到所述抓取端发送的包括待切换规则网站以及待切换规则版本号的获取新规则文件请求,则向所述抓取端发送待切换规则文件和所述待切换规则网站,所述待切换规则文件为保存在规则文件库中且由所述待切换规则网站以及所述待切换规则版本号共同标识的调度端抓取规则文件;所述抓取任务用于所述抓取端获取保存在所述抓取端与所述待抓取网站对应的抓取端抓取规则文件的抓取端版本号,比较所述抓取端版本号与所述调度端版本号,如果所述抓取端版本号与所述调度端版本号不一致,则将所述待抓取网站作为待切换规则网站,将所述调度端版本号作为待切换规则版本号,并返回所述获取新规则文件请求,否则不返回所述获取新规则文件请求,对所述待抓取网站采用所述抓取端抓取规则文件抓取网络信息;所述待切换规则文件用于所述抓取端将保存在所述抓取端与所述待切换规则网站对应的抓取端抓取规则文件,替换为所述待切换规则文件。
地址 100080 北京市海淀区苏州街20号2号楼2层