发明名称 实现网络爬虫抓取网页的方法和装置
摘要 本申请实施例公开了实现网络爬虫抓取网页的方法。其中,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;该方法包括:对于任意一个网页簇,统计当该网页簇的抓取成功率满足预设的置信水平时,该网页簇在抓取时的休眠时间的最小置信区间;在最小置信区间范围内配置该网页簇在抓取时的休眠时间;将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取该网页簇中的网页。通过本申请,可以解决现有技术中在抓取不同网站中的网页或者抓取相同网站中的不同产品的网页时抓取成功率和抓取效率无法同时得到有效保障的问题。本申请实施例还公开了实现网络爬虫抓取网页的装置。
申请公布号 CN106294364A 申请公布日期 2017.01.04
申请号 CN201510250020.9 申请日期 2015.05.15
申请人 阿里巴巴集团控股有限公司 发明人 刘庆;张美德
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 李靓;王宝筠
主权项 一种实现网络爬虫抓取网页的方法,其特征在于,预先将属于不同网站的网页划分到不同的网页簇中,和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中;所述方法包括:对于任意一个网页簇,统计当所述网页簇的抓取成功率满足预设的置信水平时,所述网页簇在抓取时的休眠时间的最小置信区间;在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间;将配置的休眠时间通知给网络爬虫,以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。
地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱