发明名称 爬虫种子获取方法与设备及爬虫爬取方法与设备
摘要 本发明提供一种爬虫种子获取方法与设备及爬虫爬去方法与设备。爬虫种子获取方法包括:根据预设检索词词典和目标导航网站的URL特性,构造动态页面请求;将动态页面请求发送给目标导航网站的服务器;根据预设提取策略,从服务器根据动态页面请求返回的检索结果页面中提取目标URL,目标URL为检索结果页面中的URL的主域名地址;对目标URL进行唯一化处理,获取唯一化目标URL,将唯一化目标URL作为爬虫种子。本发明技术方案能够提供大量的、离散度大的爬虫种子,从而缩短形成主流URL的时间,提高主流URL的覆盖性,降低爬虫系统进行爬取时的时间成本。
申请公布号 CN102355488A 申请公布日期 2012.02.15
申请号 CN201110232595.X 申请日期 2011.08.15
申请人 北京星网锐捷网络技术有限公司 发明人 吴滨华;王祖海
分类号 H04L29/08(2006.01)I;G06F17/30(2006.01)I 主分类号 H04L29/08(2006.01)I
代理机构 北京同立钧成知识产权代理有限公司 11205 代理人 李勇
主权项 一种爬虫种子获取方法,其特征在于,包括:根据预设检索词词典和目标导航网站的统一资源定位符URL特性,构造动态页面请求;将所述动态页面请求发送给所述目标导航网站的服务器;根据预设提取策略,从所述服务器根据所述动态页面请求返回的检索结果页面中提取目标URL,所述目标URL为所述检索结果页面中的URL的主域名地址;对所述目标URL进行唯一化处理,获取唯一化目标URL,将所述唯一化目标URL作为爬虫种子。
地址 100036 北京市海淀区复兴路29号中意鹏奥酒店东塔A座12层