发明名称 一种适用流式处理的大规模数据连续分析系统
摘要 本发明公开一种适用流式处理的大规模数据连续分析系统,包括元数据管理模块,用于管理数据表和数据库的元信息;查询计划生成模块,用于接收查询请求,生成优化的查询计划;数据导入任务生成模块,用于接收数据导入请求,生成数据导入MR作业集;增量处理模块,用于并行地增量地提交Hadoop系统数据导入和查询作业;MR消息处理模块,用于接收Hadoop系统的Map或Reduce函数的结果,将结果输出给Reduce端或下一个作业;数据库连接模块,用于作为Hadoop系统和数据库之间的接口。本发明使用Hadoop系统将各节点中的数据库有机组织在一起,并发地执行数据导入和数据查询,使用管道技术改进MapReduce(MR)执行流程,使得数据查询以连续的流水的方式执行,大大缩短了大规模数据分析的时间。
申请公布号 CN102546247B 申请公布日期 2014.08.27
申请号 CN201110450268.1 申请日期 2011.12.29
申请人 华中科技大学 发明人 金海;赵峰;袁平鹏;张冬洁
分类号 H04L12/24(2006.01)I;H04L12/26(2006.01)I;G06F17/30(2006.01)I 主分类号 H04L12/24(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 李智
主权项 一种适用流式处理的大规模数据连续分析系统,包括元数据管理模块、查询计划生成模块、数据导入任务生成模块、增量处理模块、MR(MapReduce)消息处理模块和数据库连接模块;所述元数据管理模块,用于存储配置文件、源数据模式信息、数据导入模式信息、数据库节点信息和数据库连接信息;所述查询计划生成模块,用于接收用户查询请求,依据所述元数据管理模块的源数据模式信息解析用户查询请求,依据查询解析结果生成查询计划传送给增量处理模块,并将所述查询解析结果传送给数据导入任务生成模块;所述数据导入任务生成模块,用于接收用户数据导入请求,依据所述用户数据导入请求和元数据管理模块提取源数据信息,生成配置文件,配置文件包含分配给源数据的数据库节点信息以及数据库连接信息;接收所述查询计划生成模块的查询解析结果,依据所述查询解析结果和源数据模式确定数据导入模式,数据导入模式只包含与查询相关的属性以及用于标识数据导入进度的增量标识属性,将配置文件、源数据模式和数据导入模式信息存储于所述元数据管理模块;依据数据导入模式和配置文件生成Hapdoop系统可执行的数据导入MR作业集,将数据导入MR作业集传送给增量处理模块;所述增量处理模块,用于接收查询计划生成模块的查询计划和数据导入任务生成模块的数据导入MR作业集;所述增量处理模块将数据导入MR作业集提交给Hapdoop系统,Hapdoop系统调用所述数据库连接模块执行数据导入MR作业集;所述增量处理模块结合所述元数据管理模块中的配置文件将所述查询计划编译成Hapdoop系统可执行的查询MR作业集,每当导入数据达到预定量后,所述增量处理模块就向Hapdoop系统提交一次查询MR作业集,Hapdoop系统调用所述数据库连接模块针对导入的这一部分数据执行查询MR作业集;MR消息处理模块,嵌入在Hadoop系统中,用于使Hadoop系统在执行数据导入或查询MR作业集时,将Map端产生的中间数据推送给对应的Reduce端,将Reduce端产生的执行结果推送给下一任务的Map端;数据库连接模块,用于提供Hadoop系统与数据库之间的接口。
地址 430074 湖北省武汉市洪山区珞喻路1037号
您可能感兴趣的专利