发明名称 自动优化爬虫的抓取方法
摘要 本发明公开了一种自动优化爬虫的抓取方法。现有的爬虫抓取网页的方法是用相同的频率去抓取发布高峰期的信息和发布低谷期的信息,影响了所抓取信息的时效性,降低了系统效能,增加了无谓的资源消耗。为解决上述问题,本发明包括以下步骤:(1)从互联网上抓取的信息页中抽取信息,如果抽取成功,加快再次抓取该信息页的频率;否则减慢再次抓取该信息页的频率;(2)在修改后的频率到时,重复步骤(1)。本发明适用于现有的各种搜索引擎。
申请公布号 CN101187925B 申请公布日期 2010.11.03
申请号 CN200610145811.6 申请日期 2006.11.17
申请人 北京酷讯科技有限公司 发明人 陈华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京中博世达专利商标代理有限公司 11274 代理人 张岱
主权项 一种自动优化爬虫的抓取方法,其特征在于:包括以下步骤:(1)从互联网上抓取的信息页中抽取信息,如果抽取成功,加快再次抓取该信息页的频率;否则减慢再次抓取该信息页的频率;(2)在修改后的频率到时,重复步骤(1);步骤(1)进一步包括:(11)抓取检测模块按照频道分类,从互联网上抓取内容与各频道分类相对应的索引列表页,如果抓取失败,则降低再次抓取这个索引列表页的频率,进入步骤(15);如果抓取成功,进入步骤(12);(12)抓取检测模块检测抓取成功的索引列表页同上次抓取时相比是否添加了新的信息,如果是,进入步骤(13);否则,降低再次抓取这个索引列表页的频率,进入步骤(15);(13)抓取检测模块下载索引列表页所添加的新的信息所对应的信息页,如果下载成功,进入步骤(14);否则,降低再次抓取这个索引列表页的频率,进入步骤(15);(14)抓取检测模块将所述下载成功的信息页发送给抽取模块,抽取模块每成功从该信息页中抽取一条信息,通知抓取检测模块加快一次以后抓取包含该信息的信息页所属的索引列表页的频率,然后抽取模块将该信息存入与该信息内容的频道分类对应的频道,进入步骤(2);(15)抓取检测模块根据当前时间对修改后的再次抓取所述索引列表页的频率进行再修正。
地址 100084 北京市海淀区中关村财智国际大厦C座2008