发明名称 用于定位万维网页以及计算机网络文件的系统和方法
摘要 一种用于快速提取和分析WWW上或计算机网络上Web页的Web crawler系统和方法,该系统和方法包括存贮在随机存取存储器上的散列表和一个顺序Web信息文件。对于系统已知的每个Web页,Web crawler系统在顺序磁盘文件中存储一个表目,在散列表中存储一个较小的表目。该散列表表目包括一个指纹值、一个提取标志和一个文件定位指示器,其中仅当成功提取到相应的Web页时,才将提取标志设置为真,而文件定位指示项表示相应表目在顺序磁盘文件中的位置。每个顺序磁盘文件表目包括相应Web页的URL,以及该Web页提取状态信息。对Web页信息磁盘文件的所有访问,是利用输入缓冲区顺序进行的,从而消除了对Web信息磁盘文件的随机存取,并且最大限度地降低了磁盘访问所引起的等待时间。
申请公布号 CN1811757A 申请公布日期 2006.08.02
申请号 CN200510006803.9 申请日期 1996.12.10
申请人 奥弗图尔服务公司 发明人 露易斯·M.·墨尼尔
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京东方亿思知识产权代理有限责任公司 代理人 董方源
主权项 1.一种用于定位数据集的系统,该数据集包括存储在远程访问计算机上的Web页,各个Web页具有唯一URL,至少部分所述Web页含有链接到其他一些Web页的URL链接,该系统包括:一个通信接口,该接口根据相应的URL,从所述远程计算机中提取特定的Web页;一个Web信息文件,具有表目集,每个表目对于相应Web页指示URL和提取状态信息;一个Web信息表,存储在RAM中,具有一组表目,每个表目代表相应Web页的指纹函数值和提取状态信息;和实现由该系统执行的Web scooter过程的装置,该过程用于提取和分析Web页,所述Web scooter过程包括以下指令:根据所述提取状态信息,提取其Web信息文件表目满足既定选择准则的Web页的指令;确定Web信息表中是否存储有每个收到的Web页中的各URL链接的相应表目的指令;以及对于Web信息表中没有其对应表目的各URL链接,在Web信息表中添加新表目和在Web信息文件中添加相应的新表目的指令。
地址 美国加利福尼亚州