发明名称 网络爬虫调度方法及应用其的网络爬虫系统
摘要 本申请公开了一种网络爬虫调度方法及应用其的网络爬虫系统,其首先对抓取到的与种子页相关的内容页数据进行解析,得到多组链接信息,然后根据每组链接信息分别计算得到一个对应的内容页在所述种子页上的链接质量,进而分别根据所述链接质量确定内容页的抓取顺序以及种子页的预设刷新间隔,保证高链接质量对应的重要内容页及种子页优先被抓取,提高索引质量及时效性,保证用户检索效果。
申请公布号 CN105117501A 申请公布日期 2015.12.02
申请号 CN201510657341.0 申请日期 2015.10.13
申请人 广州神马移动信息科技有限公司 发明人 周海建
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京弘权知识产权代理事务所(普通合伙) 11363 代理人 逯长明;许伟群
主权项 一种网络爬虫调度方法,其特征在于,包括:抓取种子页相关的内容页数据;解析所述内容页数据,得到所述种子页相关的多组链接信息;根据所述链接信息计算对应的内容页在所述种子页上的链接质量;按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作。
地址 510627 广东省广州市天河区黄埔大道西平云路163号广电平云广场B塔12层自编01单元