发明名称 用于链接精确抓取的网络机器人算法
摘要 本发明涉及用于链接精确抓取的网络机器人算法,包括以下步骤:1)把URL加入等待队列;2)判断等待队列中是否有URL且收集的链接数小于等于设定数,是则打开URL指向的网页,转步骤3,否则程序结束;3)判断网页是否包含超链接,是则转步骤4,否则将URL送入完成队列,转步骤2;4)判断网页包含的超链接是否已处理完,是则将URL送入完成队列,转步骤2,否则提取超链接,并转步骤5;5)判断超链接是否指向网页,是则转步骤6,否则转步骤4;6)判断指向的网页是否为所需网页且未访问过且不存在队列中,是则加入收集的链接队列,否则转步骤4。该算法有利于对所需的网页进行精确抓取,且算法设计合理,运行效果好。
申请公布号 CN103034732A 申请公布日期 2013.04.10
申请号 CN201210571902.1 申请日期 2012.12.26
申请人 福建师范大学 发明人 陈志德;许力
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 福州元创专利商标代理有限公司 35100 代理人 蔡学俊
主权项 一种用于链接精确抓取的网络机器人算法,其特征在于:构造等待队列、处理队列和完成队列,然后按如下步骤进行:步骤1:把待处理的URL加入所述等待队列;步骤2:判断所述等待队列中是否存在URL且收集的链接数量小于等于设定数量,如果是从所述等待队列取出一URL送入处理队列,打开所述URL指向的网页并对所述网页进行解析,然后转步骤3,否则程序结束;步骤3:判断所述网页中是否包含超级链接,如果是转步骤4,否则将所述网页对应的URL从所述处理队列取出并送入完成队列,然后返回步骤2;步骤4:判断所述网页中包含的超级链接是否都已处理完,如果是将所述网页对应的URL从所述处理队列取出并送入完成队列,然后返回步骤2,否则查看所述网页中包含的下一个超级链接,并转步骤5;步骤5:判断所述超级链接是否指向网页,如果是转步骤6,否则报告所述超级链接为外部链接,并返回步骤4;步骤6:判断所述超级链接指向的网页是否为所需网页且未访问过且不存在所述等待队列中,如果是把所述超级链接加入等待队列并更新收集的链接数量,然后返回步骤4,否则直接返回步骤4。
地址 350007 福建省福州市仓山区上三路8号