发明名称 一种基于数据仓库的异构大数据整合方法和系统
摘要 本发明提出了一种基于数据仓库的异构大数据整合方法和系统,建立结构化数据、半结构化数据及非结构化数据的关联关系,结合关系型数据库、分布式数据库以及内存数据库的各自的优势,整合各类数据,基于数据仓库做深层次数据分析,不断深化数据挖掘,实现高效、高质量的异构大数据分析处理。本发明对互联网应用中的结构化数据、半结构化数据、非结构化数据进行关联,通过Map/Reduce分布式处理和数据挖掘处理,把处理结果和相关数据以数据库结构的方式写入内存,形成简易内存数据库,便于高速计算和快速响应。
申请公布号 CN103678665B 申请公布日期 2016.09.07
申请号 CN201310723548.4 申请日期 2013.12.24
申请人 焦点科技股份有限公司 发明人 徐晓冬;邹铁鹏;何昌桃;黄建鹏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 张苏沛
主权项 一种基于数据仓库的异构大数据整合方法,其特征在于:数据源分为两部分存储,一部分存储在关系型数据库中,另一部分存储在文件系统中;其中,存储在关系型数据库中的数据是各个业务系统产生的数据,包括结构化数据和非结构化数据;存储在文件系统中的数据是以网络日志文件为主的半结构化数据,以及各类图片文件和文档文件非结构化数据;各个业务系统中的数据,经过标准数据接口,通过ETL,加载到ODS,再从ODS通过ETL加载到数据仓库中;存储在文件系统中的各类图片文件和文档文件,首先加载到Hadoop分布式文件系统中,再利用Map/Reduce对这些文件进行处理,使之能够被Hive所使用;Hive是基于Hadoop的一个数据仓库工具,它将存储在hdfs中的网络日志文件这种半结构化文件映射到一张数据库表中,并提供完整的SQL语言进行数据的查询、处理,Hive将SQL语言解析成Map/Reduce任务进行分布式运行处理;同时,Hive将存储在hdfs中的图片文件、文档文件非结构化文件的属性映射到一张数据库表中;在这些数据库表中,包含有半结构化数据和非结构化数据,在其中存在有隐性的各种属性数据,包括隐性的行为数据;通过将库表中的字段与数据仓库中的知识库建立关联关系,从而建立了隐性数据与数据仓库中显性业务数据之间的联系,为异构数据的整合做好准备;确定与网络日志、图片文件、文档文件有关联的业务数据后,将他们从数据仓库提取出来,这其中包含结构化数据和文本型的非结构化数据;使之与网络日志信息、图片文件、文档文件中的相应数据对应后,存储在HBase分布式数据库中;在HBase存有大量的各类异构数据,根据业务需要,利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理,从而完成对大量数据的预处理,实现异构数据间的初步整合;计算后的结果作为中间结果保存在HBase中;Hive把一部分关联数据以及计算得出的中间结果,通过ETL再加载到数据仓库中,从而分享给所有的数据集市使用;另一部分按照不同数据集市的主题需要,通过ETL,加载到各个不同主题的数据集市中;这些异构数据进行处理后,以结构化的形式存储在各个数据集市和数据仓库中;在各个不同主题的数据集市中,依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算,形成各自主题领域内的局部知识结果,然后数据集市将各自的局部知识结果回写到数据仓库中;数据仓库对各个业务主题的局部知识结果进行统一存储并整理,形成数据仓库中的知识层,得到全局知识结果;每个数据集市能够分享到整体业务的知识,并利用知识层的数据进一步挖掘更多的数据知识;这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的重复利用以及数据挖掘的性能;在数据集市中,常用数据以类似数据库的结构写入内存,这些数据一直驻留内存,形成简易便捷的内存数据库,网站活动事务数据和内存数据库中的数据进行交互处理;通过内存数据库,用户通过在线分析实时监控网上访问情况,询盘数据实时信息;存储在关系型数据库中数据,包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据,也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容非结构化数据;分布式运算处理,包括数据分组、数据排序、数据统计、数据异常检测;这些异构数据进行处理后,以结构化的形式加载到各个数据集市和数据仓库中,这时,在数据仓库和数据集市中包含有:各个业务系统包含的注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据,以及关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容文本型的非结构化数据,还有网络日志中的数据、图片文件和文档文件中包含的属性数据、以及这些数据初步整合的中间数据结果。
地址 210061 江苏省南京市高新区星火路软件大厦A座12F