发明名称 多源异构数据高效汇聚存取架构系统
摘要 本发明提供一种多源异构数据高效汇聚存取架构系统,包括:多源异构数据协同管理子系统、多源异构数据高速缓存子系统、多源异构数据汇聚存储子系统。多源异构数据协同管理子系统包括数据管理模块、资源监控与管理模块、检索索引模块,用于控制、协调整个存取架构系统。多源异构数据高速缓存子系统包括非结构化文件缓存模块、内存数据库模块、延迟写入模块,用于提供异构数据的高效快速读取。多源异构数据汇聚存储子系统包括非结构化数据处理模块、结构化数据处理模块、分布式文件系统,用于实现异构数据的高效汇聚存储。本发明可有效解决物联网海量数据环境下存储效率低,数据缺乏汇聚管理的问题。
申请公布号 CN103678603B 申请公布日期 2017.01.25
申请号 CN201310687009.X 申请日期 2013.12.13
申请人 江苏物联网研究发展中心 发明人 葛浩栋;陈曙东;刘文娣
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 无锡市大为专利商标事务所(普通合伙) 32104 代理人 曹祖良
主权项 一种多源异构数据高效汇聚存取架构系统,其特征在于,包括:多源异构数据协同管理子系统、多源异构数据高速缓存子系统、多源异构数据汇聚存储子系统;多源异构数据协同管理子系统包括三个模块:数据管理模块、资源监控与管理模块、检索索引模块;多源异构数据高速缓存子系统包括三个模块:非结构化文件缓存模块、内存数据库模块、延迟写入模块;多源异构数据汇聚存储子系统包括非结构化数据处理模块、结构化数据处理模块、分布式文件系统;其中非结构化数据处理模块包括文件拆分子模块、文件组合子模块、文件验证子模块;结构化数据处理模块包括:文件生成子模块、文件管理子模块;多源异构数据协同管理子系统用于控制、协调整个存取架构系统;其中的数据管理模块负责多源异构数据上传、数据下载、数据修改以及对应用层的API支持;资源监控与管理模块负责监控多源异构数据高速缓存子系统和多源异构数据汇聚存储子系统的资源使用情况,当这两个子系统中的物理缓存资源或物理存储资源出现异常或者紧缺时进行预警;检索索引模块用于提供多源异构数据高速缓存子系统与多源异构数据汇聚存储子系统内的数据存取索引;多源异构数据高速缓存子系统用于提供异构数据的高效快速读取;其中的非结构化文件缓存模块利用高速缓存及最近最不常用算法来加速应用层对非结构化数据的读取过程;内存数据库模块利用高速缓存来使得结构化数据在内存中进行操作;延迟写入模块将高速缓存中已经修改的文件按照设定的规则延迟后写入分布式文件系统中;多源异构数据汇聚存储子系统用于实现异构数据的高效汇聚存储;其中的非结构化数据处理模块通过文件拆分子模块来对大容量的单个非结构化文件进行拆分,并存入分布式文件系统中;通过文件组合子模块与文件验证子模块来对分布式文件系统中拆分后的数据块进行组合;结构化数据处理模块通过文件生成子模块与文件管理子模块,来对结构化的数据表按照设定的规则进行XML文件转换,并将转换后的XML文件存入分布式文件系统中;所述存取架构系统进行多源异构数据高效汇聚存取时:多源异构数据从应用层通过多源异构数据协同管理子系统的数据管理模块第一次进入系统后,根据不同的数据结构特征,即按照非结构化数据、结构化数据分别被多源异构数据汇聚存储子系统中的非结构化数据处理模块和结构化数据处理模块读取,并进行相应的数据处理后,送入分布式文件系统中;当应用层需要数据时,发送指令给数据管理模块,该模块调用检索索引模块来根据文件标识号或关键字遍历多源异构数据高速缓存子系统中的非结构化文件缓存模块和内存数据库模块,当发现没有找到所需数据后,数据管理模块发送指令给分布式文件系统,从中寻找到所需的源数据,在经过数据组合或XML文件转换后,分别传输至多源异构数据高速缓存子系统中的非结构化文件缓存模块或内存数据库模块中,之后通过数据管理模块传输至应用层;当应用层再次需要该数据时,数据管理模块从非结构化文件缓存模块和内存数据库模块中直接调取至应用层;应用层需要对所取数据进行改写时,通过数据管理模块对非结构化文件缓存模块或内存数据库中的相应数据进行更改;如果是结构化数据的改写,将数据改写过程通过日志方式存放在延迟写入模块中;如果是非结构化数据的改写,将数据改写过程通过临时文件的方式存放在延迟写入模块中;应用层能够通过延迟写入模块对所需数据进行多次写入更新,通过非结构化文件缓存模块或内存数据库,能够将该数据的写入和读取速度加速;经过一个时间周期后,延迟写入模块将修改后的数据送入分布式文件系统中,进行最终的数据更新。
地址 214135 江苏省无锡市新区菱湖大道200号中国传感网国际创新园C座