发明名称 分布式数据同步到数据仓库的方法及装置
摘要 本发明公开了一种分布式数据同步到数据仓库的方法及装置,用以解决现有技术提供的方案中,数据仓库中表的维护数量和难度较大,同步流程复杂,耗费时间长,可靠性低的问题。分布式数据同步到数据仓库的方法,包括:将分布式数据库的每一个分表中的增量数据导出为文本,并对应生成文本文件;将各文本文件中的文本导入到数据仓库的增量表中;根据特定的分表规则将增量表中的全部增量数据合并到数据仓库的汇总表中,所述分表规则是指将集中式数据库的大表中存储的全部数据划分到分布式数据库的多个分表中时所遵循的规则。
申请公布号 CN102096685B 申请公布日期 2013.04.17
申请号 CN200910252471.0 申请日期 2009.12.11
申请人 阿里巴巴集团控股有限公司 发明人 李学升
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 郭润湘
主权项 一种分布式数据同步到数据仓库的方法,其特征在于,所述方法包括:将分布式数据库的每一个分表中的增量数据导出为文本,并对应生成文本文件;其中,所述分布式数据库的每一个分表中的每一条记录包括数据、以及根据该数据在大表中的位置和特定的分表规则为该数据分配的全局唯一的数据标识;以及将分布式数据库的每一个分表中的增量数据导出为文本时,还携带各增量数据的全局唯一的数据标识;将各文本文件中的文本导入到数据仓库的增量表中;根据所述分表规则将增量表中的全部增量数据合并到数据仓库的汇总表中,所述分表规则是指将集中式数据库的大表中存储的全部数据划分到分布式数据库的多个分表中时所遵循的规则。
地址 英属开曼群岛大开曼岛