发明名称 |
一种HBase加载数据的导入方法 |
摘要 |
本发明公开了一种HBase加载数据的导入方法,首先在Region预分配中,设置好集群中的环境及配置参数,然后根据编写确定Region数量的函数来创建HBase表,待Region预分配结束,利用分布式计算框架分析处理能力及并行计算的特点编写MapReduce程序将源数据生成Hfile文件,最后将用completebulkload命令完成数据的导入,将数据按照预定的格式导入到了HBase表。该方法可以将生成好的HFile文件直接加载进运行中的HBase集群。这样就减少了在数据迁移过程中,数据传输与HBase加载时产生的网络流量。同时这种方法提高了数据导入效率,节省CPU和网络资源。 |
申请公布号 |
CN103617211A |
申请公布日期 |
2014.03.05 |
申请号 |
CN201310584702.4 |
申请日期 |
2013.11.20 |
申请人 |
浪潮电子信息产业股份有限公司 |
发明人 |
郭美思;王秀娟;吴楠 |
分类号 |
G06F17/30(2006.01)I;G06F9/44(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种HBase加载数据的导入方法,其特征在于:首先在Region预分配中,设置好集群中的环境及配置参数,然后根据编写确定Region数量的函数来创建HBase表,待Region预分配结束,利用分布式计算框架分析处理能力及并行计算的特点编写MapReduce程序将源数据生成Hfile文件,最后将用completebulkload命令完成数据的导入,将数据按照预定的格式导入到了HBase表。 |
地址 |
250014 山东省济南市高新区舜雅路1036号 |