发明名称 基于分布式离线技术的电量数据批量高速处理方法及系统
摘要 基于分布式离线技术的电量数据批量高速处理方法及系统,涉及一种数据批处理方法及系统。目前,高速海量数据存储计算模型欠缺,未能满足不同种类、不同形式的海量数据存储、计算。本发明包括以下步骤:1)电量采集前置机将采集电量实时发送到Kafka队列缓存;2)Storm集群读取Kafka队列电量信息,并实时存储到Hbase;3)Spark在Hbase中抽取需要处理的电量信息,并将其导入到Hive数据表;4)通过Spark离线计算操作相关Hive数据表得到当期电量,并对相关异常处理;本技术方案集Storm和Spark的优点,提升整体计算处理容量。从事务保障任务节点动态迁移技术,提出完整的任务节点迁移的事务保障协议,在确保迁移过程中流系统消息不丢包、不重复的同时,提高迁移本身的执行效率,提升系统稳定性。
申请公布号 CN106502772A 申请公布日期 2017.03.15
申请号 CN201610880143.5 申请日期 2016.10.09
申请人 国网浙江省电力公司信息通信分公司;国家电网公司;浙江华云信息科技有限公司 发明人 蒋锦霞;朱青山;裴旭斌;戴波;王红凯;何东;闫娇娇
分类号 G06F9/48(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F9/48(2006.01)I
代理机构 浙江翔隆专利事务所(普通合伙) 33206 代理人 王晓燕
主权项 基于分布式离线技术的电量数据批量高速处理方法,其特征在于包括以下步骤:a)电量采集前置机将采集电量实时发送到Kafka队列缓存;b)Storm集群读取Kafka队列电量信息,并实时存储到Hbase;c)Spark在Hbase中抽取需要处理的电量信息,并将其导入到Hive数据表;d)通过Spark离线计算操作相关Hive数据表得到当期电量,并对相关异常处理。
地址 310007 浙江省杭州市西湖区黄龙路8号