网页内容爬取的方法和装置,申请号CN201610350395.7-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	网页内容爬取的方法和装置
摘要	本公开提供一种网页内容爬取的方法和装置，包括：调度爬取任务；当查询到所述爬取任务有代理设置时，获取代理IP队列；进行资源管理处理；由数据抓取引擎采用多线程并行处理的方式进行数据抓取；各个线程对各自所抓取的数据交由解析引擎进行数据解析，并对解析数据进行持久化操作。本公开所述解决了一般网页和需要登录的网站的各个功能的爬取工作，爬取的任务由爬取组件完成，且实现了快速准确，同时还能够分析出目标网站的层级关系，形成清晰的爬取目标结构图，为爬取的数据建立起清晰的关系，通过反监控管理实现了反爬技术，为最终得到目标数据扫清了障碍。
申请公布号	CN105956175A	申请公布日期	2016.09.21
申请号	CN201610350395.7	申请日期	2016.05.24
申请人	考拉征信服务有限公司	发明人	孔祥旭;张泽斌;周勇
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京律智知识产权代理有限公司 11438	代理人	姜燕;王卫忠
主权项	一种网页内容爬取的方法，其特征在于，包括：调度爬取任务；当查询到所述爬取任务有代理设置时，获取代理IP队列；进行资源管理处理；由数据抓取引擎采用多线程并行处理的方式进行数据抓取；各个线程对各自所抓取的数据交由解析引擎进行数据解析，并对解析数据进行持久化操作。
地址	100080 北京市海淀区丹棱街6号1幢6层703室

您可能感兴趣的专利

Improvements in shoes and method of making same

Improvements in or relating to means for sensing record perforations

Bouteille perfectionnée

Perfectionnement aux appareils photo-phonographiques

Verfahren zur Gewinnung von wasserfreiem Alkohol durch Destillation

Einankerfrequenzumformer

Verfahren zur Anreicherung und Reinigung eines die maennliche Sexualhormonwirkung steigernden Aktivators

Verfahren zum Vulkanisieren von Luftreifen aus Kautschuk

Perfectionnements aux ustensiles de cuisine

Perfectionnements aux paliers et coussinets avec organes de portage à mouvement angulaire relatif

Procédé et dispositif pour l'extraction de l'huile des semences oléagineuses, notamment des fruits de palmes

Arrangements for connecting symmetrical and asymmetrical high frequency circuits or circuit parts

Improvements in and relating to the control of reciprocating mechanism

Improvements in condensation vacuum pumps

Improvements in starter drives for internal combustion engines

Improvements in or relating to steam power installations for driving vehicles or ships

Improvements in or relating to the stiffening of hollow metal plate-like bodies

Improvements relating to alcoholic fermentation

Anordning ved Apparater til Fremstilling af Klicheer.