发明名称 网页爬虫操作方法和系统
摘要 本发明公开了一种网页爬虫操作方法和系统,该方法主要包括:通过预设方式的参数抓取网站的URL并添加到内存队列;所述内存队列判断其内存储的URL是否与刚添加进入的URL存在重叠;对该URL下的网页抓取数据以及遍历该网页中所涉及的下层链接URL,并判断是否存在重叠;对该下层链接URL下的网页抓取数据,然后判断是否存在未处理的URL,如无,则将抓取出的所述数据根据预设条件进行解析并抽取传递至数据处理队列;所述数据处理队列对该数据与已有数据进行对比分析,并根据分析结果信息修改所述预设方式的参数中的抓取频率。本发明以解决现有技术中网络爬虫对网站造成过大额外负担以及不能准确、高效获取网站信息的问题。
申请公布号 CN103279507A 申请公布日期 2013.09.04
申请号 CN201310181364.X 申请日期 2013.05.16
申请人 北京尚友通达信息技术有限公司 发明人 许大伦;毛颖;黄明军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京国昊天诚知识产权代理有限公司 11315 代理人 许志勇
主权项 一种网页爬虫操作方法,其特征在于,包括:通过预设方式的参数抓取网站的URL并添加到内存队列;所述内存队列判断其内存储的URL是否与刚添加进入的URL存在重叠,如有,则忽略该URL;如无,则对该URL下的网页抓取数据以及遍历该网页中所涉及的下层链接URL,并判断该下层链接URL是否存在重叠,如有,则忽略;如无,则对该下层链接URL下的网页抓取数据,然后所述内存队列判断是否存在未处理的URL,如无,则将抓取出的所述数据根据预设条件进行解析并抽取传递至数据处理队列;所述数据处理队列对该数据与已有数据进行对比分析,并根据分析结果信息修改所述预设方式的参数。
地址 100085 北京市海淀区上地十街1号院2号楼5层516室