发明名称 |
抓取网页的系统、网页抓取节点分配方法、抓取网页的方法 |
摘要 |
本申请公开了一种抓取网页的系统。本申请还公开了一种网页抓取节点分配方法及装置,以及抓取网页的方法及装置。本申请还涉及两种电子设备。所述抓取网页的系统包括至少一个主控节点,至少一个网页抓取节点和通讯网络,所述主控节点、网页抓取节点之间通过通讯网络连接,主控节点接收对网页抓取节点的获取请求,从所管理维护的可用网页抓取节点列表内,以设定的规则为不同的获取网页抓取节点的请求选择分配网页抓取节点,向获取网页抓取节点的请求方输出所选择分配的网页抓取节点的信息;网页抓取节点接收抓取网页的请求,执行网页抓取操作,输出抓取到的网页。所述系统、方法、装置或电子设备能够起到高效、及时地大量抓取网页的效果。 |
申请公布号 |
CN106339385A |
申请公布日期 |
2017.01.18 |
申请号 |
CN201510397674.4 |
申请日期 |
2015.07.08 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
苗欣;韩陆 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京市清华源律师事务所 11441 |
代理人 |
沈泳;李赞坚 |
主权项 |
一种抓取网页的系统,包括至少一个主控节点,至少一个网页抓取节点和通讯网络,所述主控节点、网页抓取节点之间通过通讯网络连接,其特征在于,主控节点接收对网页抓取节点的获取请求,从所管理维护的可用网页抓取节点列表内,以设定的规则为不同的获取网页抓取节点的请求选择分配网页抓取节点,向获取网页抓取节点的请求方输出所选择分配的网页抓取节点的信息;网页抓取节点接收抓取网页的请求,执行网页抓取操作,输出抓取到的网页。 |
地址 |
英属开曼群岛大开曼资本大厦一座四层847号邮箱 |