发明名称 一种分布式爬虫集群中的节点和系统
摘要 本发明公开了一种基于结构化p2p的去中心化分布式爬虫节点和系统。基于结构化p2p的分布式爬虫集群中的节点包括底层覆盖网,基于p2p组织方式,执行节点间分发url和接收url的协议;爬行模块,基于被分发的url,负责从互联网抓取对应的资源;控制中心,执行分发url和接收url的功能。本发明实施例利用结构化p2p算法kademlia的特点,巧妙地解决了分布式爬虫系统中的去重和负载均衡的问题,实现了系统良好的可拓展性和容错性,可以为大规模分布式的爬虫系统提供通用的设计方法。
申请公布号 CN103067521B 申请公布日期 2016.08.17
申请号 CN201310006486.5 申请日期 2013.01.08
申请人 中国科学院声学研究所 发明人 陈君;黄志敏;吴京洪;王玲芳
分类号 H04L29/08(2006.01)I;H04L12/803(2013.01)I;G06F17/30(2006.01)I 主分类号 H04L29/08(2006.01)I
代理机构 北京亿腾知识产权代理事务所 11309 代理人 陈霁
主权项 一种基于结构化对等网络p2p的分布式爬虫集群中的节点,所述节点包括底层覆盖网,基于p2p组织方式,执行节点间分发统一资源定位符url和接收url的协议;爬行模块,基于被分发的url,负责从互联网抓取对应的资源;控制中心,执行分发url和接收url的功能;其中,所述控制中心包括负载均衡模块,基于邻居节点的节点负载等级信息,确定任务转移;所述节点负载等级的判断是依据节点拥有的超载块数目,如果节点没有超载块,则根据工作区可容纳多少超载块来确定其轻载等级,即为负数的负载等级;当节点路由表更新后,节点判断自身的负载等级,如果负载等级大于零,则节点为重载节点,根据节点路由表的邻居节点距离信息划分节点区域,以新任务的加入不会导致该区域变成重载为依据,选择一个距离最近的节点区域;并以新任务的加入不会导致节点变成重载为依据,从该区域中选择一个最近的轻载节点;如果负载等级小于零,则节点为轻载节点,不做处理;节点加入模块,查找接近节点的目标,并且请求属于自己部分的url历史记录;节点退出模块,查找接近节点的目标节点,将本地的url历史记录转移给目标节点。
地址 100190 北京市海淀区北四环西路21号