发明名称 数据分析系统及数据分析方法
摘要 本发明公开了一种数据分析系统及数据分析方法。所述系统包括:待调度任务生成模块,用于根据预先定义的任务参数将收集的数据生成待调度的任务;待调度任务存储模块,用于存储生成的待调度的任务;任务调度模块,用于加载待调度的任务,并根据任务类型调用相应的任务处理模块;任务处理模块,用于根据任务中的分析需求生成相应的Hive SQL语句向基于Hadoop的数据仓库服务器发送;在接收到服务器返回的数据后完成对任务的数据分析。由于在数据分析系统的底层利用Hadoop系统进行数据分析,而在数据分析系统的上层则以任务调度模块来实现对任务的统筹管理,从而既可以利用Hadoop系统简化了数据分析流程,又提供了更为方便地对任务进行调度、管理的系统。
申请公布号 CN102880503B 申请公布日期 2015.04.15
申请号 CN201210307198.9 申请日期 2012.08.24
申请人 新浪网技术(中国)有限公司 发明人 王锋;漆兴;赵国贤;王志强
分类号 G06F9/46(2006.01)I 主分类号 G06F9/46(2006.01)I
代理机构 北京市京大律师事务所 11321 代理人 黄启行;方晓明
主权项 一种数据分析系统,包括:待调度任务生成模块,用于根据预先定义的任务参数将收集的数据生成待调度的任务;待调度任务存储模块,用于存储所述待调度任务生成模块生成的待调度的任务;任务调度模块和任务处理模块,所述任务调度模块从所述待调度任务存储模块加载待调度的任务,将获取的任务封装到任务处理线程中,并根据加载的任务的任务类型调用相应的任务处理模块;所述任务处理模块根据所述任务中的分析需求生成相应的类结构化查询语言Hive SQL语句,并调用所述任务处理模块中的任务执行线程,将生成的Hive SQL语句发送给所述任务执行线程;所述任务执行线程发送连接请求给所述任务处理模块中的连接线程;所述连接线程根据接收的连接请求,采用java数据库连接JDBC连接技术与基于分布式计算Hadoop的数据仓库服务器Hive Server建立连接;连接建立后,向所述任务执行线程返回可用连接;所述任务执行线程根据返回的可用连接向Hive Server发送Hive SQL请求;并将接收到的Hive Server返回的数据发送给所述任务处理模块中的结果处理线程进行处理完成对所述任务的数据分析。
地址 100080 北京市海淀区北四环西路58号理想国际大厦20层