发明名称 |
页面内容获取方法和装置 |
摘要 |
本申请公开了页面内容获取方法和装置。该方法的一具体实施方式包括:确定待提取的页面内容所属的页面;利用浏览器内核获取页面;利用预设脚本提取页面中的页面内容。实现了在抓取海量页面中的页面内容时,利用浏览器内核获取和加载页面,避免了因服务器对网络爬虫检查严格拒绝服务而导致的无法获取页面的情况,从而获取到海量页面。同时,通过预设脚本直接提取获取到的页面中页面内容和对页面内容进行分析,充分考虑了页面的DOM结构,简化了提取页面内容的操作。 |
申请公布号 |
CN105956173A |
申请公布日期 |
2016.09.21 |
申请号 |
CN201610346573.9 |
申请日期 |
2016.05.24 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
胡银厚 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京英赛嘉华知识产权代理有限责任公司 11204 |
代理人 |
王达佐;马晓亚 |
主权项 |
一种页面内容获取方法,其特征在于,所述方法包括:确定待提取的页面内容所属的页面;利用浏览器内核获取所述页面;利用预设脚本提取所述页面中的所述页面内容。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦三层 |