发明名称 爬虫任务完成的判断方法和装置
摘要 本申请公开了一种爬虫任务完成的判断方法和装置。其中,该方法包括:在当前爬取子任务结束时,累计执行过的所有爬取子任务得到的链接的数量,得到累计链接数;累计执行所有爬取子任务时爬取失败的链接数量、爬取成功的链接数量和无效链接的数量;当爬取失败的链接数量、爬取成功的链接数量和无效链接的数量的总和与链接总数相同时,确定爬虫任务结束,其中,链接总数为累计链接数加1得到。本申请解决了无法准确确定爬取任务的结束时间的技术问题。
申请公布号 CN106557334A 申请公布日期 2017.04.05
申请号 CN201510624770.8 申请日期 2015.09.25
申请人 北京国双科技有限公司 发明人 崔志伸
分类号 G06F9/445(2006.01)I 主分类号 G06F9/445(2006.01)I
代理机构 北京康信知识产权代理有限责任公司 11240 代理人 韩建伟;张永明
主权项 一种爬虫任务完成的判断方法,其特征在于,爬虫任务包括至少一个爬取子任务,所述方法包括:在当前爬取子任务结束时,累计执行过的所有爬取子任务得到的链接的数量,得到累计链接数;累计执行所有爬取子任务时爬取失败的链接数量、爬取成功的链接数量和无效链接的数量;当所述爬取失败的链接数量、所述爬取成功的链接数量和所述无效链接的数量的总和与链接总数相同时,确定所述爬虫任务已完成,其中,所述链接总数为所述累计链接数加1得到。
地址 100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间