发明名称 面向海量数据流的实时并行分类方法
摘要 本发明公开了一种面向海量数据流的实时并行分类方法,所述的方法包括以下步骤:步骤一、数据Spout;步骤二、过滤批化Bolt;步骤三、模型Bolt;步骤四、局部统计与计算Bolt;步骤五、评估Bolt。本发明针对大数据“4V”特点中Volume(海量)、Velocity(高速)、Value(价值)这“3V”特点和海量数据高效处理的需求,实现了基于Storm平台的垂直并行化P‑VFDT算法;在大规模数据上的实验表明,P‑VFDT算法和VFDT算法有着相近的分类性能,但是单机多核环境的P‑VFDT算法比VFDT算法耗时约少12%,集群环境的P‑VFDT算法比VFDT算法耗时约少8%。
申请公布号 CN106095921A 申请公布日期 2016.11.09
申请号 CN201610406845.X 申请日期 2016.06.07
申请人 四川大学 发明人 李川;李旺龙
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 四川省成都市天策商标专利事务所 51213 代理人 袁辰亮
主权项 一种面向海量数据流的实时并行分类方法,其特征在于:所述的方法包括以下步骤:步骤一、数据Spout数量为1,连续产生数据记录;步骤二、过滤批化Bolt数量为1,接收数据消息,对收集的数据进行过滤筛选,并积累成批发送给模型Bolt;步骤三、模型Bolt数量为1,对一批数据进行处理,将数据的分类结果,发送给评估Bolt进行评估;将数据进行分解,然后发送给局部统计与计算Bolt的对应Task;当数据所在的叶节点通过划分测试时,向局部统计与计算Bolt的所有Task发送计算消息,请求划分结果;收到局部统计与计算Bolt的所有Task发来的计算结果后,判断是否执行最终划分,如果通过最终划分测试,则执行划分操作,并向局部统计与计算Bolt的所有Task发送删除划分前叶节点的统计信息的消息;步骤四、局部统计与计算Bolt数量为n,收到批属性数据消息时,更新属性相关统计信息;收到计算消息时,计算对应节点的最优划分评估分数;收到删除消息时,删除模型中已经完成分割的节点的属性相关统计信息;步骤五、评估Bolt。
地址 610000 四川省成都市一环路南一段24号