用于定位万维网页以及计算机网络文件的系统和方法,申请号CN200510006803.9-传众专利搜索

发明名称	用于定位万维网页以及计算机网络文件的系统和方法
摘要	一种用于快速提取和分析WWW上或计算机网络上Web页的Web crawler系统和方法，该系统和方法包括存贮在随机存取存储器上的散列表和一个顺序Web信息文件。对于系统已知的每个Web页，Web crawler系统在顺序磁盘文件中存储一个表目，在散列表中存储一个较小的表目。该散列表表目包括一个指纹值、一个提取标志和一个文件定位指示器，其中仅当成功提取到相应的Web页时，才将提取标志设置为真，而文件定位指示项表示相应表目在顺序磁盘文件中的位置。每个顺序磁盘文件表目包括相应Web页的URL，以及该Web页提取状态信息。对Web页信息磁盘文件的所有访问，是利用输入缓冲区顺序进行的，从而消除了对Web信息磁盘文件的随机存取，并且最大限度地降低了磁盘访问所引起的等待时间。
申请公布号	CN1811757A	申请公布日期	2006.08.02
申请号	CN200510006803.9	申请日期	1996.12.10
申请人	奥弗图尔服务公司	发明人	露易斯·M.·墨尼尔
分类号	G06F17/30(2006.01)	主分类号	G06F17/30(2006.01)
代理机构	北京东方亿思知识产权代理有限责任公司	代理人	董方源
主权项	1.一种用于定位数据集的系统，该数据集包括存储在远程访问计算机上的Web页，各个Web页具有唯一URL，至少部分所述Web页含有链接到其他一些Web页的URL链接，该系统包括：一个通信接口，该接口根据相应的URL，从所述远程计算机中提取特定的Web页；一个Web信息文件，具有表目集，每个表目对于相应Web页指示URL和提取状态信息；一个Web信息表，存储在RAM中，具有一组表目，每个表目代表相应Web页的指纹函数值和提取状态信息；和实现由该系统执行的Web scooter过程的装置，该过程用于提取和分析Web页，所述Web scooter过程包括以下指令：根据所述提取状态信息，提取其Web信息文件表目满足既定选择准则的Web页的指令；确定Web信息表中是否存储有每个收到的Web页中的各URL链接的相应表目的指令；以及对于Web信息表中没有其对应表目的各URL链接，在Web信息表中添加新表目和在Web信息文件中添加相应的新表目的指令。
地址	美国加利福尼亚州