发明名称 一种从HBase中全量抽取数据的方法及系统
摘要 本发明公开一种从HBase中全量抽取数据的方法,其能够多线程并发地全量高效抽取HBase数据,而且数据抽取时在regionServer间是负载均衡的,防止抽取数据时出现热点对regionServer造成压力。该方法包括:(1)部署在可以访问HBase集群的一台服务器上;(2)该服务器上面,将分区服务器regionserver的机器名与ip的对应信息配置到hosts文件中;(3)先读取HBase的元数据表,获取到region信息;然后根据不同的region信息,构建不同的scan对象,来抽取数据;(4)抽取的数据按照不同的region存放到HDFS的不同目录下。还有从HBase中全量抽取数据的系统。
申请公布号 CN106294886A 申请公布日期 2017.01.04
申请号 CN201610902484.8 申请日期 2016.10.17
申请人 北京集奥聚合科技有限公司 发明人 范卫卫;张翼;温宗臣;何良均
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京和信华成知识产权代理事务所(普通合伙) 11390 代理人 胡剑辉
主权项 一种从HBase中全量抽取数据的方法,其特征在于:该方法包括以下步骤:(1)部署在可以访问HBase集群的一台服务器上;(2)该服务器上面,将分区服务器regionserver的机器名与ip的对应信息配置到hosts文件中;(3)先读取HBase的元数据表,获取到region信息;然后根据不同的region信息,构建不同的scan对象,来抽取数据;(4)抽取的数据按照不同的region存放到HDFS的不同目录下。
地址 100085 北京市海淀区上地东路1号院5号楼9层901
您可能感兴趣的专利