发明名称 一种基于NoSQL的大规模Web日志分析系统
摘要 本发明提出一种基于NoSQL的大规模Web日志分析系统,该系统包括有三部分:分布式存储单元、分布式计算单元、用户界面客户端;分布式存储单元包含有日志收集模块、日志存储模块,日志存储模块中的数据库采用NoSQL数据库MongoDB;分布式计算单元包含有日志处理模块、日志分析模块,日志分析模块采用Hadoop分布式计算架构;用户界面客户端内部包含有可以对Web日志进行操作的日志查找单元、索引管理单元、用户管理单元、系统状态单元;基于NoSQL的大规模Web日志分析系统具有非常好的可扩展性以及通用性。通过Hadoop的MapReduce编程模式,证明本系统的高效性和可用性。
申请公布号 CN104714946A 申请公布日期 2015.06.17
申请号 CN201310673602.9 申请日期 2013.12.11
申请人 田鹏 发明人 田鹏;谢蓉;田骊;马静;毛瑞雪;潘孝楠;孙宇;田凤祥;应奕彬;陈灿华;丁素芬;周子豪;陈志强;钟霖甘;晏丹;谢嘉宾;瞿庆海;徐璡晶;赵依然;陈波;王冰洁;张天骏;袁元;赵敏;金霁阳;喻亚慧
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海申新律师事务所 31272 代理人 刘懿
主权项 一种基于NoSQL的大规模Web日志分析系统,其特征在于,该系统包括有三部分:分布式存储单元、分布式计算单元、用户界面客户端;分布式存储单元包含有日志收集模块、日志存储模块,日志存储模块中的数据库采用NoSQL数据库MongoDB;分布式计算单元包含有日志处理模块、日志分析模块,日志分析模块采用Hadoop分布式计算架构;用户界面客户端内部包含有可以对Web日志进行操作的日志查找单元、索引管理单元、用户管理单元、系统状态单元;所述的日志收集模块为日志分析模块的基础,系统启动时的第一个任务就是要从Web应用站点获取日志信息,日志收集模块负责从Web应用站点接受agent发送的日志文件,并且重新定向为本地存储的文件,将文件存储在日志存储模块中;所述的日志处理模块对经过日志收集模块后的日志数据进行分析,由于其格式各不相同,并且可能包含一些无效的数据,需要对数据进行统一的清洗,日志收集模块包含有三个步骤数据清洗,用户识别,会话识别;所述的日志存储模块以单文档为单位存储的,可以任意给一个或一批文档新增或删除字段,而不会对其它文档造成影响;所述的日志分析模块包括四分步骤:数据准备、Map函数、Reduce函数、日志分析。
地址 宁夏回族自治区中卫市海原县海城镇西居委会868号