发明名称 抓取网页数据的方法及系统
摘要 本发明提供一种抓取网页数据的方法及系统,所述方法包括选取出未抓取过的优质链接,其中,所述优质链接为指向满足用户的检索需求的网页的链接;对所述选取出的优质链接标记网络出口;根据所述标记的结果,将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取。根据采用本发明提供的技术方案,可以提高对复杂多变的抓取环境的适应性,从而显著地提高跨国家抓取网页数据的成功率。
申请公布号 CN104794199A 申请公布日期 2015.07.22
申请号 CN201510190833.3 申请日期 2015.04.21
申请人 百度在线网络技术(北京)有限公司 发明人 吕明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州三环专利代理有限公司 44202 代理人 温旭;郝传鑫
主权项 一种抓取网页数据的方法,其特征在于,所述方法包括:选取出未抓取过的优质链接,其中,所述优质链接为指向满足用户的检索需求的网页的链接;对所述选取出的优质链接标记网络出口;根据所述标记的结果,将所述选取出的优质链接分发到对应的网络出口以进行网页数据的抓取。
地址 100085 北京市海淀区上地十街10号百度大厦三层