发明名称 |
基于浏览器内核的网页爬取方法、装置及包含该装置的浏览器 |
摘要 |
本申请提供了一种基于浏览器内核的网页爬取方法、网页爬取装置及包含该装置的浏览器。所述方法包括:从用户获取初始URL;利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件;基于所述源代码文件生成相应的DOM树;遍历所述DOM树以获取所述网页中包含的静态URL和动态URL;以及将所述静态URL和动态URL加入待爬URL队列中。本申请的网页爬取方法能够支持各种网页标准,兼容各种不规范的网页;通过事件触发和HOOK手段能够更多、更准确的爬取URL。 |
申请公布号 |
CN103577427A |
申请公布日期 |
2014.02.12 |
申请号 |
CN201210259864.6 |
申请日期 |
2012.07.25 |
申请人 |
中国移动通信集团公司 |
发明人 |
付俊;张峰;杨光华 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京英赛嘉华知识产权代理有限责任公司 11204 |
代理人 |
余朦;王艳春 |
主权项 |
一种基于浏览器内核的网页爬取方法,包括:从用户获取初始URL;利用浏览器内核从Web服务器获取所述初始URL所对应网页的源代码文件;基于所述源代码文件生成相应的DOM树;遍历所述DOM树以获取所述网页中包含的静态URL和动态URL;以及将所述静态URL和动态URL加入待爬URL队列中。 |
地址 |
100032 北京市西城区金融大街29号 |