一种主题相关的分布式网络爬虫系统,申请号CN201210060805.6-传众专利搜索

发明名称	一种主题相关的分布式网络爬虫系统
摘要	一种主题相关的分布式网络爬虫系统，包括：主题链接存储器，用于存放系统未完成抓取的超链接；控制节点，用于从主题链接存储器中提取超链接，去除其中已经被系统抓取过的超链接，然后将未被系统抓取过的超链接分配给爬行节点，并控制是否终止系统运行；爬行节点，用于接收控制节点分配的超链接，然后下载超链接标识的网页，并且将网页存储在网页数据库中；网页数据库，用于存放爬行节点抓取的网页；网页分析器，用于定期从网页数据库中读取爬行节点下载的最新网页，对网页进行内容分析，计算网页及网页内所含超链接的主题相关度，然后根据主题相关度将相关的超链接存放到主题链接存储器中，将每个网页的主题相关度存于网页数据库中。
申请公布号	CN102646129B	申请公布日期	2013.12.04
申请号	CN201210060805.6	申请日期	2012.03.09
申请人	武汉大学	发明人	吴黎兵;柯亚林;何炎祥;刘楠
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人	薛玲
主权项	一种主题相关的分布式网络爬虫系统，其特征是：包含一个控制节点，多个爬行节点，一个网页数据库，一个网页分析器，一个主题链接存储器；所述主题链接存储器，用于存放系统未完成抓取的超链接；所述主题链接存储器中设有HighQueue队列和LowQueue队列两个子模块；HighQueue队列存储主题相关度大于预设阈值T的超链接，LowQueue队列存储主题相关度不大于预设阈值T的超链接；所述控制节点，用于从主题链接存储器中提取超链接，去除其中已经被系统抓取过的超链接，然后将未被系统抓取过的超链接分配给爬行节点，并控制是否终止系统运行；所述控制节点中设有已抓取超链接队列和任务分配器两个子模块；已抓取超链接队列存储有爬虫系统已经抓取过的所有超链接，任务分配器负责将待抓取的超链接分配给爬行节点；控制节点每从主题链接存储器读取一个超链接，就在已抓取超链接队列中检查它是否已经存在，若存在，丢弃该超链接，否则保存该超链接到任务分配器和已抓取超链接队列中；控制节点从主题链接存储器中读取超链接的规则是，先判断HighQueue队列是否为空，不是则按照最高相关度优先的方式依次从HighQueue队列中提取超链接；如果HighQueue队列为空，控制节点就按照先来先到的方式从LowQueue队列中提取超链接；所述爬行节点，用于接收控制节点分配的超链接，然后下载超链接标识的网页，并且将网页存储在网页数据库中；所述爬行节点中设有任务申请器和网页下载器两个子模块；当爬行节点空闲时，任务申请器向控制节点申请一定数量的下载任务，控制节点将超链接分配给各个爬行节点时，按照该爬行节点申请的数量发送超链接；网页下载器用于下载控制节点发送过来的超链接标识的网页，并且将网页保存到网页数据库中；所述网页数据库，用于存放爬行节点抓取的网页，用于网页分析器作进一步的分析；所述网页分析器，用于定期从网页数据库中读取爬行节点下载的最新网页，对网页进行内容分析，计算网页及网页内所含超链接的主题相关度，然后根据主题相关度将相关的超链接存放到主题链接存储器中，将每个网页的主题相关度存于网页数据库中。
地址	430072 湖北省武汉市武昌珞珈山武汉大学