一种用于爬取页面的方法和设备,申请号CN201310078316.8-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种用于爬取页面的方法和设备
摘要	本发明的目的是提供一种用于爬取页面的方法与设备。其中，爬取设备根据已爬取页面，获取对应候选爬取页面的候选页面标识信息；根据所述候选爬取页面与所述已爬取页面的关联性信息，将所述候选页面标识信息添加至对应的待爬页面集合，其中，所述待爬页面集合包括一个或多个待爬取页面的页面标识信息；根据所述待爬页面集合，确定待爬取页面的目标爬取标识信息；爬取所述目标爬取标识信息所对应的目标页面。与现有技术相比，本发明通过根据所述关联性信息，有效的控制了爬取的调度行为，以实现爬取调度的可配置性，使得爬取能够目的性的扩散，控制爬虫在网页间移动的方向和速度，提高了垂直爬虫的爬取效率，保证了爬取数据的完整性。
申请公布号	CN103226568A	申请公布日期	2013.07.31
申请号	CN201310078316.8	申请日期	2013.03.12
申请人	北京百度网讯科技有限公司	发明人	王江;刘浩
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京汉昊知识产权代理事务所(普通合伙) 11370	代理人	罗朋;周建华
主权项	一种用于爬取页面的方法，其中，该方法包括以下步骤：x根据已爬取页面，获取对应候选爬取页面的候选页面标识信息；y根据所述候选爬取页面与所述已爬取页面的关联性信息，将所述候选页面标识信息添加至对应的待爬页面集合，其中，所述待爬页面集合包括一个或多个待爬取页面的页面标识信息；其中，该方法还包括：a根据所述待爬页面集合，确定待爬取页面的目标爬取标识信息；b爬取所述目标爬取标识信息所对应的目标页面。
地址	100085 北京市海淀区上地十街10号百度大厦2层

您可能感兴趣的专利

一种电动汽车无线充电方法

基于变频调速的钻机保护控制系统

用户终端、基站以及无线通信方法

一种超细颗粒破碎装置及破碎方法

针及其制造方法

POLYESTER FILM, OPTICAL FILM AND DISPLAY COMPRISING SAME

METHOD FOR MODIFYING GRADIENT OF FACIAL SHAPE, AND SYSTEM FOR THE SAME

COPOLYMER AND ORGANIC SOLAR CELL COMPRISING THE SAME

SUBFRAME AND METHOD FOR REINFORCING THE SAME

COVERING ASSEMBLY FOR RACK

CROSSBAR COUPLING DEVICE OF HANDRAIL AND THE INSTALLATION METHOD

1 2 ANCHORING SERVICES OF A MOBILE STATION ATTACHED TO A FIRST SERVICE DOMAIN AT A HOME AGENT IN A SECOND SERVICE DOMAIN

Conducting fibers fabricated with nano carbon materials having multiple hydrogen bonding motifs and their fabrication method

TIME DELAY ESTIMATION APPARATUS AND METHOD FOR ESTIMATING TEME DELAY THEREOF

Method for manufacturing piezoelectric element

TRAIN ORIENTED CONTROL SYSTEM AND LINKAGE METHOD OF RAILWAY USING TRAIN ORIENTED CONTROL SYSTEM

LED LAMP FOR AUTOMOBILE

KERF STRUCTURE AND PNEUMATIC TIRE COMPRISING THE SAME

RELIABILITY EVALUATION TEST SYSTEM AND METHOD FOR DYNAMIC POSITIONING SYSTEM