实现网络爬虫抓取网页的方法和装置,申请号CN201510250020.9-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	实现网络爬虫抓取网页的方法和装置
摘要	本申请实施例公开了实现网络爬虫抓取网页的方法。其中，预先将属于不同网站的网页划分到不同的网页簇中，和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中；该方法包括：对于任意一个网页簇，统计当该网页簇的抓取成功率满足预设的置信水平时，该网页簇在抓取时的休眠时间的最小置信区间；在最小置信区间范围内配置该网页簇在抓取时的休眠时间；将配置的休眠时间通知给网络爬虫，以便网络爬虫按照配置的休眠时间抓取该网页簇中的网页。通过本申请，可以解决现有技术中在抓取不同网站中的网页或者抓取相同网站中的不同产品的网页时抓取成功率和抓取效率无法同时得到有效保障的问题。本申请实施例还公开了实现网络爬虫抓取网页的装置。
申请公布号	CN106294364A	申请公布日期	2017.01.04
申请号	CN201510250020.9	申请日期	2015.05.15
申请人	阿里巴巴集团控股有限公司	发明人	刘庆;张美德
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京集佳知识产权代理有限公司 11227	代理人	李靓;王宝筠
主权项	一种实现网络爬虫抓取网页的方法，其特征在于，预先将属于不同网站的网页划分到不同的网页簇中，和/或将属于相同网站中的不同产品的网页划分到不同的网页簇中；所述方法包括：对于任意一个网页簇，统计当所述网页簇的抓取成功率满足预设的置信水平时，所述网页簇在抓取时的休眠时间的最小置信区间；在所述最小置信区间的范围内配置所述网页簇在抓取时的休眠时间；将配置的休眠时间通知给网络爬虫，以便网络爬虫按照配置的休眠时间抓取所述网页簇中的网页。
地址	英属开曼群岛大开曼岛资本大厦一座四层847号邮箱

您可能感兴趣的专利

POLYETHYLENE COMPOSITIONS, METHOD OF PRODUCING THE SAME, ARTICLES MADE THEREFROM, AND METHOD MAKING THE SAME

HARDWARE MODULE FOR ADDING FUNCTIONALITY TO TELEVISION USING MECHANICAL AND WIRELESS LINKS

Compounds for the treatment of metabolic disorders

A replaceable cleaning sponge for use in cleaning apparatus

Intradermal injection device

Improvements in or relating to storage

Compounds for the treatment of metabolic disorders

Solar range extender

A winged pile sleeve

Improvements to electrochemical systems

Novel compounds

Wind-up head mounted led light

Modular construction for guided vehicle tracks

Antimicrobial compositions and uses

Solubilisation of membrane proteins

Capturing, recording and managing multi-media communications 1

Kiddy kool lunchbox

SLIDE CARTRIDGE AND REAGENT TEST SLIDES FOR USE WITH A CHEMICAL ANALYZER, AND CHEMICAL ANALYZER FOR SAME

Safety rail assembly