发明名称 |
一种基于NoSQL的大规模Web日志分析系统 |
摘要 |
本发明提出一种基于NoSQL的大规模Web日志分析系统,该系统包括有三部分:分布式存储单元、分布式计算单元、用户界面客户端;分布式存储单元包含有日志收集模块、日志存储模块,日志存储模块中的数据库采用NoSQL数据库MongoDB;分布式计算单元包含有日志处理模块、日志分析模块,日志分析模块采用Hadoop分布式计算架构;用户界面客户端内部包含有可以对Web日志进行操作的日志查找单元、索引管理单元、用户管理单元、系统状态单元;基于NoSQL的大规模Web日志分析系统具有非常好的可扩展性以及通用性。通过Hadoop的MapReduce编程模式,证明本系统的高效性和可用性。 |
申请公布号 |
CN104714946A |
申请公布日期 |
2015.06.17 |
申请号 |
CN201310673602.9 |
申请日期 |
2013.12.11 |
申请人 |
田鹏 |
发明人 |
田鹏;谢蓉;田骊;马静;毛瑞雪;潘孝楠;孙宇;田凤祥;应奕彬;陈灿华;丁素芬;周子豪;陈志强;钟霖甘;晏丹;谢嘉宾;瞿庆海;徐璡晶;赵依然;陈波;王冰洁;张天骏;袁元;赵敏;金霁阳;喻亚慧 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海申新律师事务所 31272 |
代理人 |
刘懿 |
主权项 |
一种基于NoSQL的大规模Web日志分析系统,其特征在于,该系统包括有三部分:分布式存储单元、分布式计算单元、用户界面客户端;分布式存储单元包含有日志收集模块、日志存储模块,日志存储模块中的数据库采用NoSQL数据库MongoDB;分布式计算单元包含有日志处理模块、日志分析模块,日志分析模块采用Hadoop分布式计算架构;用户界面客户端内部包含有可以对Web日志进行操作的日志查找单元、索引管理单元、用户管理单元、系统状态单元;所述的日志收集模块为日志分析模块的基础,系统启动时的第一个任务就是要从Web应用站点获取日志信息,日志收集模块负责从Web应用站点接受agent发送的日志文件,并且重新定向为本地存储的文件,将文件存储在日志存储模块中;所述的日志处理模块对经过日志收集模块后的日志数据进行分析,由于其格式各不相同,并且可能包含一些无效的数据,需要对数据进行统一的清洗,日志收集模块包含有三个步骤数据清洗,用户识别,会话识别;所述的日志存储模块以单文档为单位存储的,可以任意给一个或一批文档新增或删除字段,而不会对其它文档造成影响;所述的日志分析模块包括四分步骤:数据准备、Map函数、Reduce函数、日志分析。 |
地址 |
宁夏回族自治区中卫市海原县海城镇西居委会868号 |