发明名称 |
页面检测方法及客户端 |
摘要 |
本发明提供了一种页面检测方法及客户端。其中,方法包括:在针对网络进行旁路侦听的过程中抓取数据请求包,其中,数据请求包至少包括超文本传输协议请求包;确定数据请求包对应的链接是否为新链接,其中,新链接为链接库中未保存的链接;若是,利用对应的链接生成待爬虫库;提取待爬虫库中的任一链接:获取与任一链接对应的页面;提取页面的所有节点;根据所有节点检测页面是否包含新链接;当检测结果为是,获取新链接,并添加至待爬虫库,以供后续执行页面检测使用。依据本发明实施例提供的页面检测方法,能够达到自动抓取基于第二代互联网制作相关内容的网站的链接,完善爬虫操作效果的有益效果。 |
申请公布号 |
CN105528370A |
申请公布日期 |
2016.04.27 |
申请号 |
CN201410522123.1 |
申请日期 |
2014.09.30 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
赵武;龙专 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京智汇东方知识产权代理事务所(普通合伙) 11391 |
代理人 |
康正德;薛峰 |
主权项 |
一种页面检测方法,包括:在针对网络进行旁路侦听的过程中抓取数据请求包,其中,所述数据请求包至少包括超文本传输协议请求包;确定所述数据请求包对应的链接是否为新链接,其中,所述新链接为链接库中未保存的链接;若是,利用所述对应的链接生成待爬虫库;提取所述待爬虫库中的任一链接:获取与所述任一链接对应的页面;提取所述页面的所有节点;根据所述所有节点检测所述页面是否包含所述新链接;当检测结果为是,获取所述新链接,并添加至所述待爬虫库,以供后续执行页面检测使用。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |