网页爬虫抓取方法及系统,申请号CN201610592441.4-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	网页爬虫抓取方法及系统
摘要	本发明提供了一种网页爬虫抓取方法及系统，根据根节点获取待爬取页面中所有链接，找出其中未访问过的链接，获取未访问链接的数据流，对数据流进行清洗后，提取数据流中的文本，本发明通过对数据流的清洗去除无关内容的干扰，且其抓取结果为纯文本。
申请公布号	CN106055722A	申请公布日期	2016.10.26
申请号	CN201610592441.4	申请日期	2016.07.26
申请人	重庆兆光科技股份有限公司	发明人	彭德光;利节;孙健;李鹏华
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京元本知识产权代理事务所 11308	代理人	朱浩
主权项	一种网页爬虫抓取方法，其特征在于，包括：设置未访问队列和已访问数据库，将待爬取页面的链接添加到未访问队列；获取待爬取页面的根节点；根据所述根节点，获取待爬取页面中的所有链接；将所获取的链接分别与已访问数据库中的链接进行匹配，在已访问数据库中没有链接与该链接匹配时，将该链接添加到未访问队列；获取未访问队列中每个链接所指向页面的数据流，并将数据流存储于中间数据库；对中间数据库中的数据流进行清洗；提取数据流中的文本。
地址	400000 重庆市沙坪坝区天星桥凤天大道109号2-2-1号

您可能感兴趣的专利

STEAM COVER FOR DE-ICING AND THAWING SURFACES AND EQUIPMENT

PORTABLE SHAMPOO APPARATUS

HEAT TREATING DEVICE

Fag, der er bundet til et kernelokaliseringssignal

RECESS GATE AND THE FORMING METHOD THEREOF

METHOD FOR MANUFACTURING NON-ORIENTED ELECTRICAL STEEL SHEET HAVING HIGH MAGNETIC FLUX DENSITY

vibrometer structure for ultrasonic washer

Level Sensing Apparatus for Grain Drier

Umbrella for leading a rainwater

Mold base for clay handicraft

Shading devie for motor's rear glass

AN EVAPORATOR USING MICRO- CHANNEL TUBES

Medicinsk anvendelse af en selektiv östrogenreceptormodulator i kombination med et könssteroidpræcursor

METHOD AND APPARATUS FOR ACTIVELY TURBOCHARGING AN ENGINE.

CARBOSTYRIL DERIVATIVES AND SEROTONIN REUPTAKE INHIBITORS FOR TREATMENT OF MOOD DISORDERS

Cryoprobe til behandling af hud, muskler og andre organer på mennesker og dyr i forbindelse med fysioterapi

SOOT ACCUMULATION AMONT PREDICTING METHOD FOR EXHAUST GAS CLEANING FILTER, AND COMPUTER PROGRAM PRODUCT

USE OF MELAMINE RESIN FOILS AND/OR FILMS FOR COATING THREE-DIMENSIONALLY STRUCTURED SURFACES AND/OR MOULDED BODIES

GLASS SIZING COMPOSITION

DEVICE FOR TRANSPORTING A PRODUCT SECTION