发明名称 |
一种从HBase中全量抽取数据的方法及系统 |
摘要 |
本发明公开一种从HBase中全量抽取数据的方法,其能够多线程并发地全量高效抽取HBase数据,而且数据抽取时在regionServer间是负载均衡的,防止抽取数据时出现热点对regionServer造成压力。该方法包括:(1)部署在可以访问HBase集群的一台服务器上;(2)该服务器上面,将分区服务器regionserver的机器名与ip的对应信息配置到hosts文件中;(3)先读取HBase的元数据表,获取到region信息;然后根据不同的region信息,构建不同的scan对象,来抽取数据;(4)抽取的数据按照不同的region存放到HDFS的不同目录下。还有从HBase中全量抽取数据的系统。 |
申请公布号 |
CN106294886A |
申请公布日期 |
2017.01.04 |
申请号 |
CN201610902484.8 |
申请日期 |
2016.10.17 |
申请人 |
北京集奥聚合科技有限公司 |
发明人 |
范卫卫;张翼;温宗臣;何良均 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京和信华成知识产权代理事务所(普通合伙) 11390 |
代理人 |
胡剑辉 |
主权项 |
一种从HBase中全量抽取数据的方法,其特征在于:该方法包括以下步骤:(1)部署在可以访问HBase集群的一台服务器上;(2)该服务器上面,将分区服务器regionserver的机器名与ip的对应信息配置到hosts文件中;(3)先读取HBase的元数据表,获取到region信息;然后根据不同的region信息,构建不同的scan对象,来抽取数据;(4)抽取的数据按照不同的region存放到HDFS的不同目录下。 |
地址 |
100085 北京市海淀区上地东路1号院5号楼9层901 |