一种基于Web页无限层采集方法,申请号CN200810152017.3-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于Web页无限层采集方法
摘要	本发明涉及一种基于Web页无限层采集方法，包括下列步骤：(1)规范网页采集的入口页面地址StartURL；(2)对该页面上的每一个URL进行解析，若该URL是相对路径，利用入口地址StartURL补全，将其转换成绝对路径；(3)判断入口地址StartURL是否为该URL的上级，若是则启用下行链采集，继续向下扩展，若不是，则停止扩展；在采集和扩展过程中，对于每个URL，循环匹配取出页面中的文字，并查找页面上的链接，将链接上的文字以及链接所指向的网页中的文字取出并存储，如此遍历该网页的所有链接，进行无限层网页采集。利用本发明提供的网页采集方法，能够针对用户需求，进行多层次链接分析，提取用户所关心的内容，高效地实现网络信息采集。
申请公布号	CN101404666A	申请公布日期	2009.04.08
申请号	CN200810152017.3	申请日期	2008.10.06
申请人	赵洪宇	发明人	赵洪宇;袁青霞;李闻;阮振中
分类号	H04L29/08(2006.01)I;H04L12/54(2006.01)I	主分类号	H04L29/08(2006.01)I
代理机构	天津市北洋有限责任专利代理事务所	代理人	江镇华
主权项	1.一种基于Web页无限层采集方法，包括下列步骤：(1)规范网页采集的入口页面地址StartURL；(2)对该页面上的每一个URL进行解析，若该URL是相对路径，利用入口地址StartURL补全，将其转换成绝对路径；(3)判断入口地址StartURL是否为该URL的上级，若是则启用下行链采集，继续向下扩展，若不是，则停止扩展；在采集和扩展过程中，对于每个URL，循环匹配取出页面中的文字，并查找页面上的链接，将链接上的文字以及链接所指向的网页中的文字取出并存储，如此遍历该网页的所有链接，进行无限层网页采集。
地址	300072天津市南开区白堤路馨名园5-5-501

您可能感兴趣的专利

Fire Insulation Material

DAMPER SYSTEM FOR VEHICLE

VOICE ACQUISITION SYSTEM FOR A VEHICLE

METHODS, DEVICES, AND SYSTEMS FOR A HIGH VOLTAGE TOLERANT BUFFER

Optical State Estimation And Simulation Environment For Unmanned Aerial Vehicles

Motion Sensor, Method, and Computer-Readable Storage Medium Providing a Motion Sensor That Can Rapidly Calibrate Gains

Specific Absorption Rate Measurement and Energy-Delivery Device Characterization Using Image Analysis

BIOMATERIALS FOR TISSUE REPLACEMENT

METHODS AND COMPOSITIONS FOR DEPLETING ABUNDANT RNA TRANSCRIPTS

PREPARATION OF ALUMINUM PHOSPHATE OR POLYPHOSPHATE PARTICLES

Multi-Channel Multi-Factor Authentication

BUSHING PRESS-FITTING INSPECTION DEVICE, METHOD, AND PROGRAM, AND BUSHING PRESS-FITTING APPARATUS

BONE FRACTURE FIXATION SYSTEM

SELECTIVE RETIREMENT OF BLOCKS

Software Self-Checking Systems and Methods

HARDWARE ASSIST THREAD FOR DYNAMIC PERFORMANCE PROFILING

FEATURE SET EMBEDDING FOR INCOMPLETE DATA

RESIN APPLICATOR AND METHOD OF USING THE SAME

PROCESS OF BREWING TEA LEAVES CONTAINED IN A CAPSULE