网页爬虫操作方法和系统,申请号CN201310181364.X-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	网页爬虫操作方法和系统
摘要	本发明公开了一种网页爬虫操作方法和系统，该方法主要包括：通过预设方式的参数抓取网站的URL并添加到内存队列；所述内存队列判断其内存储的URL是否与刚添加进入的URL存在重叠；对该URL下的网页抓取数据以及遍历该网页中所涉及的下层链接URL，并判断是否存在重叠；对该下层链接URL下的网页抓取数据，然后判断是否存在未处理的URL，如无，则将抓取出的所述数据根据预设条件进行解析并抽取传递至数据处理队列；所述数据处理队列对该数据与已有数据进行对比分析，并根据分析结果信息修改所述预设方式的参数中的抓取频率。本发明以解决现有技术中网络爬虫对网站造成过大额外负担以及不能准确、高效获取网站信息的问题。
申请公布号	CN103279507A	申请公布日期	2013.09.04
申请号	CN201310181364.X	申请日期	2013.05.16
申请人	北京尚友通达信息技术有限公司	发明人	许大伦;毛颖;黄明军
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京国昊天诚知识产权代理有限公司 11315	代理人	许志勇
主权项	一种网页爬虫操作方法，其特征在于，包括：通过预设方式的参数抓取网站的URL并添加到内存队列；所述内存队列判断其内存储的URL是否与刚添加进入的URL存在重叠，如有，则忽略该URL；如无，则对该URL下的网页抓取数据以及遍历该网页中所涉及的下层链接URL，并判断该下层链接URL是否存在重叠，如有，则忽略；如无，则对该下层链接URL下的网页抓取数据，然后所述内存队列判断是否存在未处理的URL，如无，则将抓取出的所述数据根据预设条件进行解析并抽取传递至数据处理队列；所述数据处理队列对该数据与已有数据进行对比分析，并根据分析结果信息修改所述预设方式的参数。
地址	100085 北京市海淀区上地十街1号院2号楼5层516室

您可能感兴趣的专利

DUAL VIEW DISPLAY DEVICE AND METHOD FOR DRIVING THE SAME

SYSTEMS, METHODS, AND APPARATUSES FOR ERASING MEMORY ON WIRELESS DEVICES

Heating Apparatus for Roll-Bending of Titanium Alloy Sheet and Roll-Bending Method of Titanium Alloy Sheet using the Same

APPARATUS FOR MAUNFACTURING CARBON FIBER USING ELECTRODE

CURRENT BALANCING CIRCUIT FOR DRIVING MULTI-LAMP

SOLAR CELL AND SOLAR CELL MODULE

APPARATUS AND METHOD FOR DISPLAYING INNER IMAGE

PROCESS OF MAKING ALKYLAROMATICS USING EMM-12

ACCESS TERMINAL CAPABILITY UPDATE

DEVICE FOR CONTROLLING PITCH OF BLADE, WIND POWER GENERATOR AND METHOD FOR CONTROLLING PITCH OF BLADE

HIGH TENSILE STRENGTH STEEL THICK PLATE HAVING EXCELLENT WELDABILITY AND TENSILE STRENGTH OF 780MPA OR ABOVE, AND PROCESS FOR MANUFACTURING SAME

INTEGRATED CAPACITOR WITH GRID PLATES

NEW PROTEIN FORMULATION

Dual type Tube Vessel

SYSTEM AND METHOD FOR MANAGING STOCK MEDICINE OF PHARMACY

LASER MARKING DEVICE AND METHOD USING FOCUS LENS

CLEANING APPARATUS FOR A SHOWER-HEAD USED IN MANUFACTURING PROCESS OF SEMICONDUCTOR

METHOD AND APPARATUS FOR OPTIMAL EFFICIENCY CONTROLING OF INVERTER AND IPMSM OPERATING SYSTEM USING THE SAME

SOLID SUPPORT AND METHOD FOR PURIFYING HIS-TAGGED PROTEIN

APPARATUS FOR CUTTING LENGTH OF SLAB IN CONTINUOUS CASTING