面向海量数据流的实时并行分类方法,申请号CN201610406845.X-传众专利搜索

发明名称	面向海量数据流的实时并行分类方法
摘要	本发明公开了一种面向海量数据流的实时并行分类方法，所述的方法包括以下步骤：步骤一、数据Spout；步骤二、过滤批化Bolt；步骤三、模型Bolt；步骤四、局部统计与计算Bolt；步骤五、评估Bolt。本发明针对大数据“4V”特点中Volume(海量)、Velocity(高速)、Value(价值)这“3V”特点和海量数据高效处理的需求，实现了基于Storm平台的垂直并行化P‑VFDT算法；在大规模数据上的实验表明，P‑VFDT算法和VFDT算法有着相近的分类性能，但是单机多核环境的P‑VFDT算法比VFDT算法耗时约少12％，集群环境的P‑VFDT算法比VFDT算法耗时约少8％。
申请公布号	CN106095921A	申请公布日期	2016.11.09
申请号	CN201610406845.X	申请日期	2016.06.07
申请人	四川大学	发明人	李川;李旺龙
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	四川省成都市天策商标专利事务所 51213	代理人	袁辰亮
主权项	一种面向海量数据流的实时并行分类方法，其特征在于：所述的方法包括以下步骤：步骤一、数据Spout数量为1，连续产生数据记录；步骤二、过滤批化Bolt数量为1，接收数据消息，对收集的数据进行过滤筛选,并积累成批发送给模型Bolt；步骤三、模型Bolt数量为1，对一批数据进行处理，将数据的分类结果，发送给评估Bolt进行评估；将数据进行分解，然后发送给局部统计与计算Bolt的对应Task；当数据所在的叶节点通过划分测试时，向局部统计与计算Bolt的所有Task发送计算消息，请求划分结果；收到局部统计与计算Bolt的所有Task发来的计算结果后，判断是否执行最终划分，如果通过最终划分测试，则执行划分操作，并向局部统计与计算Bolt的所有Task发送删除划分前叶节点的统计信息的消息；步骤四、局部统计与计算Bolt数量为n，收到批属性数据消息时，更新属性相关统计信息；收到计算消息时，计算对应节点的最优划分评估分数；收到删除消息时，删除模型中已经完成分割的节点的属性相关统计信息；步骤五、评估Bolt。
地址	610000 四川省成都市一环路南一段24号