发明名称 页面检测方法及客户端
摘要 本发明提供了一种页面检测方法及客户端。其中,方法包括:在针对网络进行旁路侦听的过程中抓取数据请求包,其中,数据请求包至少包括超文本传输协议请求包;确定数据请求包对应的链接是否为新链接,其中,新链接为链接库中未保存的链接;若是,利用对应的链接生成待爬虫库;提取待爬虫库中的任一链接:获取与任一链接对应的页面;提取页面的所有节点;根据所有节点检测页面是否包含新链接;当检测结果为是,获取新链接,并添加至待爬虫库,以供后续执行页面检测使用。依据本发明实施例提供的页面检测方法,能够达到自动抓取基于第二代互联网制作相关内容的网站的链接,完善爬虫操作效果的有益效果。
申请公布号 CN105528370A 申请公布日期 2016.04.27
申请号 CN201410522123.1 申请日期 2014.09.30
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 赵武;龙专
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京智汇东方知识产权代理事务所(普通合伙) 11391 代理人 康正德;薛峰
主权项 一种页面检测方法,包括:在针对网络进行旁路侦听的过程中抓取数据请求包,其中,所述数据请求包至少包括超文本传输协议请求包;确定所述数据请求包对应的链接是否为新链接,其中,所述新链接为链接库中未保存的链接;若是,利用所述对应的链接生成待爬虫库;提取所述待爬虫库中的任一链接:获取与所述任一链接对应的页面;提取所述页面的所有节点;根据所述所有节点检测所述页面是否包含所述新链接;当检测结果为是,获取所述新链接,并添加至所述待爬虫库,以供后续执行页面检测使用。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)