一种社保大数据分布式预处理方法及系统,申请号CN201610451305.3-传众专利搜索

发明名称	一种社保大数据分布式预处理方法及系统
摘要	本发明公开了一种社保大数据分布式预处理方法及系统，主要技术方案是将数据预处理流程定义为包含多个预处理操作节点的数据预处理作业，预处理操作节点在独立的线程中并行执行；对复杂度高的数据操作节点分配多个执行线程，并以分布式云服务器集群的方式并行执行数据预处理作业；分布式预处理系统的数据装载按列方式写入分布式文件系统，同时利用NoSQL对数据写入操作进行缓存优化。本发明充分发挥了预处理云服务器的处理性能，克服了单一服务器的性能瓶颈，也避免了服务器与HDFS数据节点之间多余的数据传输，同时提高数据装载到HDFS的效率，从而提高大数据预处理的效率。
申请公布号	CN106126601A	申请公布日期	2016.11.16
申请号	CN201610451305.3	申请日期	2016.06.20
申请人	华南理工大学	发明人	张星明;陈伟健;林育蓓;吴世豪
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	广州市华学知识产权代理有限公司 44245	代理人	罗观祥
主权项	一种社保大数据分布式预处理方法，其特征在于：首先，将数据预处理的各种操作定义为数据操作节点，将一套数据预处理流程定义为数据预处理作业，数据预处理作业由数据操作节点构成；然后对给定的数据预处理作业，为其中的每个数据操作节点分配一个或多个线程，分配多个线程的数据操作节点称为并行数据操作节点，启动预处理作业即启动多个线程同时工作，而仅包含单线程数据操作节点的预处理流程中，数据流按单泳道传递；对复杂度高的数据操作节点分配多个执行线程，并以分布式云服务器集群的方式并行执行数据预处理作业，集群由云平台上搭建的预处理服务器组成，包括一台主服务器和多台子服务器，系统将预处理作业中分配多线程的数据操作节点抽取出来，构成子预处理作业，分配给子服务器，剩余部分则交由主服务器处理，集群任务调度器采用MapReduce并行模式，按照设定的分区规则对主服务器上操作节点的数据集进行均匀划分，传输给子服务器进行处理，子服务器完成数据处理操作后发送给主服务器进行合并，最终保持数据的一致性；所述数据处理流程按如下具体步骤执行：1)云平台为云服务器分配所需资源，并初始化预处理云服务器集群；2)云平台初始化预处理集群任务调度器，调度器负责管理数据操作节点活动、监听操作节点的执行，以及指导数据集的划分和分发任务；3)云服务器加载数据操作节点的元数据，元数据定义了数据操作节点的名称和操作数据集的字段信息，包括字段名称、数据类型、数据精度，云服务器对加载的数据操作节点按先后顺序排列；4)云服务器对各数据操作节点按以下步骤执行：4.1)云服务器获取当前数据操作节点，根据元数据获取操作节点名称以及操作的数据集信息；判断数据操作节点是否为并行数据操作节点，若不是，执行步骤4.2)，若是，执行步骤4.3)；4.2)主服务器从上一操作节点获取数据集，并负责执行当前节点定义的数据操作任务；数据操作任务完成后，执行步骤4.4)；4.3)主服务器从上一操作节点获取数据集，由集群任务调度器按照设定的分区规则对数据集进行均匀划分，传输给子服务器并行执行数据操作任务；子服务器完成数据处理操作后发送给主服务器进行合并，数据操作任务完成后，执行步骤4.4)；4.4)判断有无后续数据操作节点，若有，则执行步骤4.1)。
地址	510640 广东省广州市天河区五山路381号