发明名称 |
一种基于分布式的海量日志采集系统 |
摘要 |
本发明公开了一种基于分布式的海量日志采集系统,该系统包括数据源层、分布式缓存层、分布式存储与计算层、业务处理层、可视化展示层和统一调度与管理模块。通过本发明能够有效应对日志采集与高速入库的问题,同时,使用分布式存储与搜索引擎技术,加快查找与检索的速度,从而实现了高速、准确、可靠地对海量日志进行采集与分析。 |
申请公布号 |
CN104036025A |
申请公布日期 |
2014.09.10 |
申请号 |
CN201410299857.8 |
申请日期 |
2014.06.27 |
申请人 |
蓝盾信息安全技术有限公司 |
发明人 |
杨育斌;柯宗贵;赵必厦 |
分类号 |
G06F17/30(2006.01)I;G06F11/34(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种基于分布式的海量日志采集系统,其特征在于,该系统通过在目标主机上安装Agent进程,对目标主机的文本、应用程序、数据库等日志信息进行有选择地定向推送到服务器集群的统一访问接口,服务器端采用了分布式缓存与实时流处理框架技术;该系统包括数据源层、分布式缓存层、分布式存储与计算层、业务处理层、可视化展示层和统一调度与管理模块;数据源层,由数据采集组件(生产者)模块对各个节点上面的文本、应用程序、数据库等进行采集,推送到分布式缓存层;分布式缓存层,由LVS对各个节点的消息队列组件进行负载均衡,提供一个统一的接口来接收并写入数据源节点推送过来的数据,等待分布式存储与计算层的数据采集组件(消费者)来读取;分布式存储与计算层,提供存储与计算的功能,包括数据采集组件(消费者)模块、离线计算模块、实时计算模块、分布式存储和搜索引擎;其中,数据采集组件(消费者)模块负责对分布式缓存层进行数据读取;离线计算模块由Hadoop及其生态系统组成;实时计算模块由Storm组成;业务处理层,提供统计分析和数据挖掘的功能与服务,由上层进行调用;可视化展示层,提供普通查询、全文检索、报表展示、导入导出等功能;统一调度与管理模块,对上述5层进行统一的调度与管理,基于工作流,自动化处理。 |
地址 |
510665 广东省广州市高新技术产业开发区东明二路5号A326房 |