发明名称 |
基于虚浏览器下载的互联网大数据采集系统 |
摘要 |
一种基于虚浏览器下载的互联网大数据采集系统,由顶至下,包括由虚浏览器层、负载均衡层和HTTP代理层;其中虚浏览器层为系统的顶层,由虚浏览器集群构成,发出HTTP请求;负载均衡层为系统的中间层,虚浏览器层通过负载均衡层连接HTTP代理层;HTTP代理层为系统的底层,依HTTP请求返回HTTP响应。过使用虚浏览器作为下载客户端,利用虚浏览器的网页渲染和脚本解析引擎,可以直接获取到JavaScript脚本在Dom上执行、渲染后的结果。负载均衡层提高了系统的效率,保证了系统的鲁棒性。而由于系统中的HTTP代理服务和虚浏览器处于同一子网,能够极大避免外部带宽开销和下载耗时开销。 |
申请公布号 |
CN105491131A |
申请公布日期 |
2016.04.13 |
申请号 |
CN201510910412.3 |
申请日期 |
2015.12.10 |
申请人 |
天津海量信息技术有限公司 |
发明人 |
李天与;杨伟锋 |
分类号 |
H04L29/08(2006.01)I |
主分类号 |
H04L29/08(2006.01)I |
代理机构 |
天津市尚仪知识产权代理事务所(普通合伙) 12217 |
代理人 |
王山 |
主权项 |
一种基于虚浏览器下载的互联网大数据采集系统,其特征在于:由顶至下,包括由虚浏览器层、负载均衡层和HTTP代理层;其中虚浏览器层为系统的顶层,由虚浏览器集群构成,发出HTTP请求;负载均衡层为系统的中间层,虚浏览器层通过负载均衡层连接HTTP代理层;HTTP代理层为系统的底层,依HTTP请求返回HTTP响应。 |
地址 |
300020 天津市和平区南马路11号麦购国际大厦23层 |