一种基于数据仓库的异构大数据整合方法和系统,申请号CN201310723548.4-传众专利搜索

发明名称	一种基于数据仓库的异构大数据整合方法和系统
摘要	本发明提出了一种基于数据仓库的异构大数据整合方法和系统，建立结构化数据、半结构化数据及非结构化数据的关联关系，结合关系型数据库、分布式数据库以及内存数据库的各自的优势，整合各类数据，基于数据仓库做深层次数据分析，不断深化数据挖掘，实现高效、高质量的异构大数据分析处理。本发明对互联网应用中的结构化数据、半结构化数据、非结构化数据进行关联，通过Map/Reduce分布式处理和数据挖掘处理，把处理结果和相关数据以数据库结构的方式写入内存，形成简易内存数据库，便于高速计算和快速响应。
申请公布号	CN103678665B	申请公布日期	2016.09.07
申请号	CN201310723548.4	申请日期	2013.12.24
申请人	焦点科技股份有限公司	发明人	徐晓冬;邹铁鹏;何昌桃;黄建鹏
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	南京知识律师事务所 32207	代理人	张苏沛
主权项	一种基于数据仓库的异构大数据整合方法，其特征在于：数据源分为两部分存储，一部分存储在关系型数据库中，另一部分存储在文件系统中；其中，存储在关系型数据库中的数据是各个业务系统产生的数据，包括结构化数据和非结构化数据；存储在文件系统中的数据是以网络日志文件为主的半结构化数据，以及各类图片文件和文档文件非结构化数据；各个业务系统中的数据，经过标准数据接口，通过ETL，加载到ODS，再从ODS通过ETL加载到数据仓库中；存储在文件系统中的各类图片文件和文档文件，首先加载到Hadoop分布式文件系统中，再利用Map/Reduce对这些文件进行处理，使之能够被Hive所使用；Hive是基于Hadoop的一个数据仓库工具，它将存储在hdfs中的网络日志文件这种半结构化文件映射到一张数据库表中，并提供完整的SQL语言进行数据的查询、处理，Hive将SQL语言解析成Map/Reduce任务进行分布式运行处理；同时，Hive将存储在hdfs中的图片文件、文档文件非结构化文件的属性映射到一张数据库表中；在这些数据库表中，包含有半结构化数据和非结构化数据，在其中存在有隐性的各种属性数据，包括隐性的行为数据；通过将库表中的字段与数据仓库中的知识库建立关联关系，从而建立了隐性数据与数据仓库中显性业务数据之间的联系，为异构数据的整合做好准备；确定与网络日志、图片文件、文档文件有关联的业务数据后，将他们从数据仓库提取出来，这其中包含结构化数据和文本型的非结构化数据；使之与网络日志信息、图片文件、文档文件中的相应数据对应后，存储在HBase分布式数据库中；在HBase存有大量的各类异构数据，根据业务需要，利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理，从而完成对大量数据的预处理，实现异构数据间的初步整合；计算后的结果作为中间结果保存在HBase中；Hive把一部分关联数据以及计算得出的中间结果，通过ETL再加载到数据仓库中，从而分享给所有的数据集市使用；另一部分按照不同数据集市的主题需要，通过ETL，加载到各个不同主题的数据集市中；这些异构数据进行处理后，以结构化的形式存储在各个数据集市和数据仓库中；在各个不同主题的数据集市中，依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算，形成各自主题领域内的局部知识结果，然后数据集市将各自的局部知识结果回写到数据仓库中；数据仓库对各个业务主题的局部知识结果进行统一存储并整理，形成数据仓库中的知识层，得到全局知识结果；每个数据集市能够分享到整体业务的知识，并利用知识层的数据进一步挖掘更多的数据知识；这个过程不断循环进行，形成一个有效的知识信息闭环，提高了知识的重复利用以及数据挖掘的性能；在数据集市中，常用数据以类似数据库的结构写入内存，这些数据一直驻留内存，形成简易便捷的内存数据库，网站活动事务数据和内存数据库中的数据进行交互处理；通过内存数据库，用户通过在线分析实时监控网上访问情况，询盘数据实时信息；存储在关系型数据库中数据，包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据，也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容非结构化数据；分布式运算处理，包括数据分组、数据排序、数据统计、数据异常检测；这些异构数据进行处理后，以结构化的形式加载到各个数据集市和数据仓库中，这时，在数据仓库和数据集市中包含有：各个业务系统包含的注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据，以及关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容文本型的非结构化数据，还有网络日志中的数据、图片文件和文档文件中包含的属性数据、以及这些数据初步整合的中间数据结果。
地址	210061 江苏省南京市高新区星火路软件大厦A座12F