发明名称 一种爬虫模拟登陆采集的方法
摘要 本发明提供一种爬虫模拟登陆采集的方法,其具体实现过程为:设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集。该一种爬虫模拟登陆采集的方法和现有技术相比,可以实现采集需要用户认证后才能采集的网页;解决了需要用户认证才能进行访问的页面采集问题,提高了网络采集的全面性,实用性强,易于推广。 
申请公布号 CN103984719A 申请公布日期 2014.08.13
申请号 CN201410196086.X 申请日期 2014.05.12
申请人 浪潮电子信息产业股份有限公司 发明人 程瑶
分类号 G06F17/30(2006.01)I;H04L9/32(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种爬虫模拟登陆采集的方法,其特征在于其具体实现过程为:一、首先设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集;二、通过浏览器自带的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;三、身份认证模块实现对步骤二中POST包内容再现,发送到待采集网页;四、身份认证模块实现对待采集网站服务器返回值的记录;五、采集请求模块把步骤四中返回的相关记录值和采集请求做集成处理;六、采集请求模块发送对待采集页面的采集请求;七、采集下载模块实现对待采集页面的采集;八、如果不需要模拟登录采集,只需要进行步骤五和六。
地址 250101 山东省济南市高新区舜雅路1036号