发明名称 |
一种分布式爬虫集群中的节点和系统 |
摘要 |
本发明公开了一种基于结构化p2p的去中心化分布式爬虫节点和系统。基于结构化p2p的分布式爬虫集群中的节点包括底层覆盖网,基于p2p组织方式,执行节点间分发url和接收url的协议;爬行模块,基于被分发的url,负责从互联网抓取对应的资源;控制中心,执行分发url和接收url的功能。本发明实施例利用结构化p2p算法kademlia的特点,巧妙地解决了分布式爬虫系统中的去重和负载均衡的问题,实现了系统良好的可拓展性和容错性,可以为大规模分布式的爬虫系统提供通用的设计方法。 |
申请公布号 |
CN103067521B |
申请公布日期 |
2016.08.17 |
申请号 |
CN201310006486.5 |
申请日期 |
2013.01.08 |
申请人 |
中国科学院声学研究所 |
发明人 |
陈君;黄志敏;吴京洪;王玲芳 |
分类号 |
H04L29/08(2006.01)I;H04L12/803(2013.01)I;G06F17/30(2006.01)I |
主分类号 |
H04L29/08(2006.01)I |
代理机构 |
北京亿腾知识产权代理事务所 11309 |
代理人 |
陈霁 |
主权项 |
一种基于结构化对等网络p2p的分布式爬虫集群中的节点,所述节点包括底层覆盖网,基于p2p组织方式,执行节点间分发统一资源定位符url和接收url的协议;爬行模块,基于被分发的url,负责从互联网抓取对应的资源;控制中心,执行分发url和接收url的功能;其中,所述控制中心包括负载均衡模块,基于邻居节点的节点负载等级信息,确定任务转移;所述节点负载等级的判断是依据节点拥有的超载块数目,如果节点没有超载块,则根据工作区可容纳多少超载块来确定其轻载等级,即为负数的负载等级;当节点路由表更新后,节点判断自身的负载等级,如果负载等级大于零,则节点为重载节点,根据节点路由表的邻居节点距离信息划分节点区域,以新任务的加入不会导致该区域变成重载为依据,选择一个距离最近的节点区域;并以新任务的加入不会导致节点变成重载为依据,从该区域中选择一个最近的轻载节点;如果负载等级小于零,则节点为轻载节点,不做处理;节点加入模块,查找接近节点的目标,并且请求属于自己部分的url历史记录;节点退出模块,查找接近节点的目标节点,将本地的url历史记录转移给目标节点。 |
地址 |
100190 北京市海淀区北四环西路21号 |