发明名称 |
一种主题相关的分布式网络爬虫系统 |
摘要 |
一种主题相关的分布式网络爬虫系统,包括:主题链接存储器,用于存放系统未完成抓取的超链接;控制节点,用于从主题链接存储器中提取超链接,去除其中已经被系统抓取过的超链接,然后将未被系统抓取过的超链接分配给爬行节点,并控制是否终止系统运行;爬行节点,用于接收控制节点分配的超链接,然后下载超链接标识的网页,并且将网页存储在网页数据库中;网页数据库,用于存放爬行节点抓取的网页;网页分析器,用于定期从网页数据库中读取爬行节点下载的最新网页,对网页进行内容分析,计算网页及网页内所含超链接的主题相关度,然后根据主题相关度将相关的超链接存放到主题链接存储器中,将每个网页的主题相关度存于网页数据库中。 |
申请公布号 |
CN102646129B |
申请公布日期 |
2013.12.04 |
申请号 |
CN201210060805.6 |
申请日期 |
2012.03.09 |
申请人 |
武汉大学 |
发明人 |
吴黎兵;柯亚林;何炎祥;刘楠 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
武汉科皓知识产权代理事务所(特殊普通合伙) 42222 |
代理人 |
薛玲 |
主权项 |
一种主题相关的分布式网络爬虫系统,其特征是:包含一个控制节点,多个爬行节点,一个网页数据库,一个网页分析器,一个主题链接存储器;所述主题链接存储器,用于存放系统未完成抓取的超链接;所述主题链接存储器中设有HighQueue队列和LowQueue队列两个子模块;HighQueue队列存储主题相关度大于预设阈值T的超链接,LowQueue队列存储主题相关度不大于预设阈值T的超链接;所述控制节点,用于从主题链接存储器中提取超链接,去除其中已经被系统抓取过的超链接,然后将未被系统抓取过的超链接分配给爬行节点,并控制是否终止系统运行;所述控制节点中设有已抓取超链接队列和任务分配器两个子模块;已抓取超链接队列存储有爬虫系统已经抓取过的所有超链接,任务分配器负责将待抓取的超链接分配给爬行节点;控制节点每从主题链接存储器读取一个超链接,就在已抓取超链接队列中检查它是否已经存在,若存在,丢弃该超链接,否则保存该超链接到任务分配器和已抓取超链接队列中;控制节点从主题链接存储器中读取超链接的规则是,先判断HighQueue队列是否为空,不是则按照最高相关度优先的方式依次从HighQueue队列中提取超链接;如果HighQueue队列为空,控制节点就按照先来先到的方式从LowQueue队列中提取超链接;所述爬行节点,用于接收控制节点分配的超链接,然后下载超链接标识的网页,并且将网页存储在网页数据库中;所述爬行节点中设有任务申请器和网页下载器两个子模块;当爬行节点空闲时,任务申请器向控制节点申请一定数量的下载任务,控制节点将超链接分配给各个爬行节点时,按照该爬行节点申请的数量发送超链接;网页下载器用于下载控制节点发送过来的超链接标识的网页,并且将网页保存到网页数据库中;所述网页数据库,用于存放爬行节点抓取的网页,用于网页分析器作进一步的分析;所述网页分析器,用于定期从网页数据库中读取爬行节点下载的最新网页,对网页进行内容分析,计算网页及网页内所含超链接的主题相关度,然后根据主题相关度将相关的超链接存放到主题链接存储器中,将每个网页的主题相关度存于网页数据库中。 |
地址 |
430072 湖北省武汉市武昌珞珈山武汉大学 |