发明名称 用以在全球资讯网上定位页及将来自电脑网路之文件予以定位的系统和方法
摘要 一可在全球资讯网上或从由一网路所连接的电脑快速拿取和分析网页的网路爬行者系统(Web crawler system),其包括一储存在一随机存取记忆体的哈希表 (hash table)和一连续网资讯磁碟档案(sequential Web information diskfile)。对系统所知的每一网页而言,上述网路爬行者系统会在连续网资讯磁碟档案中储存一登录,并在哈希表中储存一较小的登录。上述哈希表登录包括一手印值、一拿取旗标,此拿取旗标只有当已成功他拿取到对应的网页时才会被设定为真,和一档案位置指示器,此档案位置指示器指示对应登录是储存在连续网资讯磁碟档案中的什麽地方。每一连续磁碟档案登录包括一对应网页的通用资源定位址(URL)和有关此网页的拿取状态资讯。所有网资讯磁碟档案的存取是经由一输入缓冲器来连续地被执行,故使得来自此连续资讯磁碟档案的大量登录会以单一的输入/输出操作而被移到上述输入缓冲器。然后可由输入缓冲器进入到此连续磁碟档案。同样地,所有可加到连续档案的新登录可储存在一附属缓冲器中,以及只要上述附属缓冲器填满了,则附属缓冲器的内容会被加到连续档案的后面。在此方法中,可删除随意进入到网资讯磁碟档案的发生,并且可将由磁碟存取限制所造成的等待时间减到最小。
申请公布号 TW311996 申请公布日期 1997.08.01
申请号 TW085115495 申请日期 1996.12.13
申请人 迪吉多电脑公司 发明人 路易斯蒙尼尔
分类号 G06F15/173 主分类号 G06F15/173
代理机构 代理人 陈长文 台北巿敦化北路二○一号七楼
主权项 1.一种用来设置(locating)资料组之系统,该资料组包括储存在远端设置的可存取电脑中的网页,每一网页具有一唯一的URL(全球源设置器;universalresource locator),至少一些该网页包含到其他网页的URL连结,此系统包括:一通信介面,其依据对应的URLs从该远端设置的电脑拿取指定的网页;一网页资讯档案,其具有一组登录,每一针对一对应网页的登录代表一URL和拿取状态资讯;一网页资讯表,其储存在随机存取记忆体中(randomaccess memory),具有一组登录,针对一对应网页每一登录代表一手印値和拿取状态资讯;以及用来完成一网路滑行者程序的装置,其由系统来执行,以便拿取和分析网页,该网路滑行者程序包括用来拿取其资讯档案登录符合基于该拿取状态资料的预定选择标准的网页的指令,以针对在每一收到的网页中之每一URL连结确定是否一对应登录已存在于网路资讯表中,以及针对在网路资讯表中不具有一对应登录的每一URL连结加入一新登录于网路资讯表中和一对应新登录于网路资讯档案中。2.根据申请专利范围第1项之系统,包括多数引线,在重叠时间期间每一引线执行网路滑行者程序,包括装置以致当一些引线正在拿取网页时,网页的其他引线也正在分析所拿取到的网页。3.根据申请专利范围第2项之系统,包括一互斥信号(mutex),其中被每一引线所执行的该网路滑行者程序包括在进入网路资讯表和网路资讯档案前用来请求和等待互斥信号的指令。4.根据申请专利范围第3项之系统,包括:一输入缓冲器和一附属缓冲器;一档案经理,其用来将来自于网路资讯档案的连续指定登录段储存到输入缓冲器中;该网路滑行者程序,其用来扫描和分析在输入缓冲器中的网路资讯档案登录,以找寻符合该预定选择标准的该网路资讯档案登录;该网路滑行者程序,其用来将所有要被加入到该网路资讯档案的登录储存于该附属缓冲器中;以及该档案经理,其用来将在附属缓冲器中的多数登录移到该网路资讯档案中。5.根据申请专利范围第1项之系统,其中在第二记忆体中的每一登录包括在第一记忆体中一对应登录的一位址。6.一种用来设置资料组的方法,该资料组包括储存在远端设置的可存取电脑的网页,每一网页具有一唯一URL,至少一些该网页包括连接到其他网页的URL连结,该方法包括:储存具有一组登录的一网页资讯,针对一对应网页每一登录代表一URL和拿取状态资讯;储存具有一组登录的一网路资讯表于RAM中,针对一对应网页每一登录代表一手印値和拿取状态资讯;以及执行一网路滑行者程序,以便拿取和分析网页,包括(A)连续扫描在网路资讯档案中的登录,以确定该登录中的那些符合预定选择标准,(B)拿取其网页资讯档案登录符合该预定选择标准的网页;(C)针对在每一的网页中连结到其他网页的每一URL连结,确定是否一对应登录已存在网路资讯表中,以及(D)对于在网路资讯表中不具有一对应登录的每一URL连结加入一新登录于网路资讯表中及一对应新登录于网路资讯档案中。7.根据申请专利范围第6项之方法,包括在重叠时间周期期间在复数引线中执行该网路滑行者程序,以致当某些引线正在拿取网页时,其他引线也正在分析所拿取的网页。8.根据申请专利范围第7项之方法,包括:定义一互斥信号;当在每一该引线中执行该网路滑行者程序者,在进入该网路资讯表和网路资讯档案前需求和等待互斥信号。9.根据申请专利范围第8项之方法,包括:在该RAM中定义一“输入缓冲器"和一“附属缓冲器";将来自网路资讯档案的连续指定登录段储存到该输入缓冲器中;该连续扫描在网路资讯档案中之登录的步骤包括扫描在该输入缓冲器中之网路资讯档案登录,以确定该网路资讯档案登录的那些符合该预定设置标准;储存所有登录于该附属缓冲器中,以便被加入该档案中;以及将在该附属缓冲器中的复数登录移到该网路资讯档案。10.根据申请专利范围第6项之方法,其中在网路资讯表中的每一登录包括在网路资讯档案中一对应登录的一位址,该方法包括:藉由读取该网路资讯表中一对应登录之位址,而存取在该网路资讯档案中该登录之一,然后在该位址上读取该网路资讯档案中的该一登录。11.一种用以设置储存在和网路连接之电脑中的资料组之装置,每一资料组由一唯一位址来认定,至少一些资料组包括储存在电脑中之其他资料组的一个或多个连结位址,该装置包括:一通信介面,其连接于网路并针封所确认的资料组,以传送请求到该电脑,该每一请求包括该所确认资料组的位址、以及接收资料组以回应该请求;一第一记忆体,其储存一第一组登录,该第一组登录每一登录包括一对应资料组的位址和该对应资料组的状态资讯;一第二记忆体,其储存一第二组登录,该第二组登录的每一登录包括一对应资料组之位址的一编码以及该对应资料组之状态资讯的一解码;以及引线装置,其耦合到该第一和第二记忆体以及该通信介面,以连续地读取该第一组的登录、针对在该第一组中具有对应登录的那些所确认的资料产生请求,其中该第一组是符合所定状态基准选择标准、以及回应接收到所确认的资料组,在所接收到的资料组中所对应到至少一副组位址的该第一组和第二组中产生新登录,其中在该第二组中没有对应的登录。12.根据申请专利范围第11项之装置,其中在该第二组中的每一登录包括在该第一组中一对应登录的一位址,在该第二组登录是用来索引该第一组登录。13.根据申请专利范围第11项之装置,包括一多个该引线装置,以致当一些引线装置正在产生该请求和接收到该所确认资料组时,其他引线装置也正在该第一组和第二组记忆体中产生新登录。14.根据申请专利范围第13项之装置,包括一互斥信号,其中每一该引线装置包括逻辑,以便在进入该第一记忆体和第二记忆体前请求和等待互斥信号。15.根据申请专利范围第14项之装置,包括:一输入缓冲器和一附属缓冲器,其位于该第二记忆体中;一经理,其用来将在该第一记忆体中连续指定登录群储存到该输入缓冲器中;每一该引线装置包括用来扫描和分析在该输入缓冲器中的登录的装置,以便找寻该登录,其中该登录是符合该预定状态基准选择标准;以及每一该引线装置将在所有登录储存在该附属缓冲器中,以便加入该第一记忆体中;该经理也具有用来将在该附属缓冲器中的复数登录移到该第一记忆体的装置。16.一种用来设置储存在和网路连接之电脑中的资料组的方法,每一资料组被一唯一位址所确认,至少一些该资料组包括一个或多个储存在该电脑中其他资料组的连结位址,包括:(A)储存一第一组登录于一第一记忆体中,该第一组中的每一登录包括一对应资料组的位址和针对该对应资料组的状态资讯;(B)储存一第二组登录于一第二记忆体中,该第二组中的每一登录包括一对应资料组之位址的一编码以及针对该对应资料组之状态资讯的一编码;(C)连续地读取该第一组的登录;(D)针对所确认的资料组经由网路传送请求到该电脑,其中该所确认的资料组具有该第一组的对应登录,其符合预定状态基准选择标准;以及(E)为了回应接收所确认的资料组,在该第一和第二组中产生对应于所接收到的资料组中至少一副组位址的新登录,其中在该第二组中没有对应的登录。17.根据申请专利范围第16项之方法,其中该步骤(B)包括将该第一组中一对应登录的一位址储存于该第二组中的每一登录,该第二组登录是用来索引第一组登录。18.根据申请专利范围第16项之方法,包括在重叠时间周期间在复数引线中执行步骤C、D和E,如此当一些引线正在拿取资料组时,其他资料组也正在分析所拿取的资料组。19.根据申请专利范围第18项之方法,包括:定义一互斥信号;以及在进入该第一和第二记忆体中的第一和第二组登录前每一该引线会请求和等待互斥信号。20.根据申请专利范围第19项之方法,包括:在该第二记忆体中定义一输入缓冲器和一附属缓冲器;将来自第一组登录的连续指定登录段储存于该输入缓冲器中;该连续读取步骤包括连续读取在该输入缓冲器中之登录的步骤,及决定那些该输入缓冲器登录符合该预定状态基准选择标准;将所有登录储存有于该附属缓冲器中,以便被加入该第一记忆体;以及将在该附属缓冲器中的复数登录移到该第一记忆体。图示简单说明:图一是依据本发明一较佳实施例之一网路爬行者系统的一方块图。图二是使用在本发明一较佳实施例中之哈希表机构的一方块图。图三是使用在本发明一较佳实施例中之连续网资讯磁碟档案和相关资料结构的一方块图。图四是使用在本发明一较佳实施例中之网路爬行者程序的一流程图。
地址 美国