发明名称 面向带有描述信息的海量非结构化数据分布式处理架构
摘要 本发明公开了一种面向带有描述信息的海量非结构化数据分布式处理架构,包括数据采集模块,收集非结构化数据并发送至数据缓冲队列中;数据缓冲及预处理模块,暂存数据采集模块发送的数据,并可选择的对数据进行修复或二次处理工作;数据分离及归档存储模块,从前一个模块分布式队列中获取数据,可选择对非结构化数据和描述信息分离,分离后的数据转发或存储至后继模块,流处理模块,对最近接入的数据进行实时监测、比对、计算和处理;分布式数据存储模块,对非结构化数据和描述信息存储;分布式业务处理模块,包含业务处理器、数据访问单元和数据缓存组件;分布式消息中间件,接收前端请求供业务处理器选择执行,或将后台处理结果返回给前端。
申请公布号 CN104216899A 申请公布日期 2014.12.17
申请号 CN201310214367.9 申请日期 2013.05.31
申请人 济南观澜数据技术有限公司 发明人 林立伟;崔星灿;董振
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南圣达知识产权代理有限公司 37221 代理人 王吉勇
主权项 一种面向带有描述信息的海量非结构化数据分布式处理架构,其特征是,它包括以下模块:数据采集模块,包含数个采集终端,负责收集非结构化数据并将它们发送至数据缓冲及预处理模块的数据分布式缓冲队列中;数据缓冲及预处理模块,主要包含一级数据分布式缓冲队列,用来暂存数据采集模块发送的数据;数据分离及归档存储模块,从前一个模块的分布式队列中获取数据,并根据实际应用选择的对非结构化数据和描述信息分离,然后将分离后的数据转发或存储至分布式数据存储模块;流处理模块,该模块基于现有的S4或Storm分布式流处理平台实现,对最近接入的数据实时监测、比对、计算和处理,得到的结果实时推送给后继模块中的分布式业务处理器,同时该模块也接收分布式业务处理器发来的信息和命令以满足可控性要求;分布式数据存储模块,为满足海量数据需求,该模块中用两种可靠的分布式存储组件即分布式数据库和分布式文件系统,对非结构化数据和描述信息分别存储;分布式业务处理模块,该模块作为应用业务处理的核心模块,主要包括以下几个组件:(1)分布式业务处理器,该组件由分布在多台节点上的Share‑Nothing式业务处理器组成,主要负责接收前端请求,通过与流处理模块交互和利用分布式计算框架MapReduce,来完成相应业务并向目的组件发送结果;(2)非结构化数据访问单元,它不仅支持对已归档数据的访问,还能自动到缓冲队列中获取未来及归档的数据,这个过程对使用者而言是完全透明的;(3)分布式数据缓存,无论是对非结构化数据本身还是对其描述信息的访问可能都会存在一定的延迟,分布式数据缓存组件能够缓解这一问题;分布式消息中间件,该模块使用现成的中间件系统来充当,其主要功能是接收前端请求以供分布式业务处理器选择执行,业务完成结果也是通过该中间件经网络送达前端应用。
地址 250101 山东省济南市高新区开拓路2350号513室