发明名称 一种面向物联网大数据的存储和查询方法
摘要 本发明属于软件设计与应用技术领域,具体涉及一种面向物联网大数据的存储和查询方法,其切合智慧城市领域的应用实际,具有强大的应用前景。该方法包括如下步骤:步骤S1:由传感器设备层采集数据;步骤S2:通过数据解析进行数据解析;步骤S3:通过数据存储层进行数据存储;步骤S4:通过数据查询层进行数据查询;与现有技术相比较,本发明提供一种在物联网大数据应用领域数据的高速存储和查询的方法,能够克服基于传统数据库存储和查询的缺点和不足。
申请公布号 CN106227899A 申请公布日期 2016.12.14
申请号 CN201610797518.1 申请日期 2016.08.31
申请人 北京京航计算通讯研究所 发明人 张慧超;朱玉明;王鹏;郑茜;胡占阳;张玉辉;刘红义;李艳志;章利光;王海燕;陈立忠;王岩
分类号 G06F17/30(2006.01)I;H04L29/08(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中国兵器工业集团公司专利中心 11011 代理人 周恒
主权项 一种面向物联网大数据的存储和查询方法,其特征在于,其包括如下步骤:步骤S1:由传感器设备层采集数据;物联网应用领域的数据源都来自与各种专业的传感器设备;传感器设备层中的物联感知传感器负责把原始协议数据包发送到上层进行数据解析;步骤S2:通过数据解析进行数据解析;由于物联感知传感器采集并上报的数据是基于其特定协议的数据,在网络通信层面来讲传输的数据属于原始数据包,不能直接推送到系统应用中直接应用,需要按照该设备的通信协议对原始数据报文进行解析形成格式化的数据;由于不同的传感器用途不一样,传感器数据解析后形成的数据格式分为结构化数据、半结构化数据、非结构化数据;其中,结构化数据:对于解析大多数的传感器数据时得到的数据都是结构化数据,包括温度传感器,对某一时刻上报的数据报文解析后包含了设备编号、设备厂商、设备协议、设备运行状况、温度数据、产生数据的时间信息,这些信息的格式都是固定不变的,由此按照传统的关系型数据处理方式,创建温度传感器数据表,将以上业务信息按照对应的字段信息存储;半结构化数据:在一些特定需求、特定场景的物联网应用中,有些传感器的数据虽然是结构化的,但是其结构不是永久不变,而是存在结构的差异性和变化性;这类数据包括城市地下管线供水专业监测站点数据,虽然是同一个专业的监测数据,但是由于该专业使用了不同的设备,导致上传的数据从结构上来说是不一致的,这样的数据属于半结构化数据;非结构化数据:非结构化数据是无法直接知道其内容的信息,包括图像数据、声音数据、视频数据;对于物联网中的一个重要应用摄像头而言,该设备产生的数据就是图像、声音和视频,这些数据存储到关系型数据库中在进行查询和查看时就比较困难;步骤S3:通过数据存储层进行数据存储;数据存储层负责存储经数据解析层处理的数据,针对不同数据的类型采用不同的存储策略来解决数据多样性的存储问题;对于结构化数据存储到关系型数据库中,对于半结构化数据存储到分布式数据库中,对于非结构化数据存储到DFS中;其中,RDBMS:由于目前关系型数据库技术的使用范围比较广泛、成熟度比较高,所以结构化数据存储到关系型数据库RDBMS中,包括Oracle、MySQL;分布式数据库:对于半结构化数据来说,由于结构的不确定性和变化性的特点,在RDBMS技术体系中很难处理这样的结构变化,但是在比较流行的大数据技术中,基于列存储的分布式数据库技术适用于表结构不确定和变化的场景;列存储得名来源于其存储数据的方式与RDBMS最大的不同是按照列来存储数据,列存储最大的特点是方便存储结构化和半结构化的数据,方便做数据压缩,对于针对某一列或者某几列的查询有非常大的IO优势;DFS:对于非结构化数据来说,如果使用RDBMS来存储图像、声音和视频,一般的做法是建立一个包含编号、内容描述、内容blob三个字段的表,非结构化数据保存在内容blob字段里,这样对于大量非结构化数据的存储是一个极大的挑战;针对这一问题,采用分布式文件系统DFS,将非结构化的数据存储到一个文件系统里,分布式的技术架构可以很好的解决海量非结构化数据的存储问题;步骤S4:通过数据查询层进行数据查询;数据查询是以下层的数据存储为基础,为上层系统应用提供快速、高效的数据查询服务;通过采用查询缓存技术解决海量数据的快速索引,访问控制用来限制数据的访问权限,数据的访问方式采用发布数据服务的形式;具体包括:查询缓存、访问控制、数据服务;查询缓存:由于物联网数据量的庞大和系统访问数据的频繁程度高,在读取数据时频繁的磁盘IO操作,然而磁盘IO的速度慢、效率低,导致数据的读取效率低下;采用缓存技术可以让内存数据读取代替磁盘读取,内存数据的读取速度远快于磁盘读取,从而提高数据读取的效率;查询缓存分集群分布式缓存和本地缓存;由于底层存储采用分布式技术,在读取某个数据时如果挨个节点寻找,势必会影响查询效率。分布式缓存能够高性能地读取数据、能够动态地扩展缓存节点、能够自动发现和切换故障节点、能够自动均衡数据分区,而且能够为使用者提供图形化的管理界面,部署和维护都十分方便;本地缓存是指将客户机本地的物理内存划分出一部分空间用来缓冲客户机回写到服务器的数据,将客户机回写的数据不再先写入服务器硬盘,而是将回写数据先写入本地回写缓存,当缓存空间达到一定的阀值时,再将数据回写到服务器;有了本地回写缓存功能之后,可大大降低服务器读写压力和网络负载;访问控制:访问控制是负责应用系统在发送数据访问请求时对系统的访问权限进行验证和授权的管理功能;数据服务:通过发布数据服务的方式向应用系统提供数据访问接口,该接口实现访问异构数据时接口的一致性,用户无需关心数据是存储在RDBMS还是分布式数据库还是DFS。
地址 100074 北京市丰台区云岗北区西里1号院