发明名称 | 面向海量数据流的实时并行分类方法 | ||
摘要 | 本发明公开了一种面向海量数据流的实时并行分类方法,所述的方法包括以下步骤:步骤一、数据Spout;步骤二、过滤批化Bolt;步骤三、模型Bolt;步骤四、局部统计与计算Bolt;步骤五、评估Bolt。本发明针对大数据“4V”特点中Volume(海量)、Velocity(高速)、Value(价值)这“3V”特点和海量数据高效处理的需求,实现了基于Storm平台的垂直并行化P‑VFDT算法;在大规模数据上的实验表明,P‑VFDT算法和VFDT算法有着相近的分类性能,但是单机多核环境的P‑VFDT算法比VFDT算法耗时约少12%,集群环境的P‑VFDT算法比VFDT算法耗时约少8%。 | ||
申请公布号 | CN106095921A | 申请公布日期 | 2016.11.09 |
申请号 | CN201610406845.X | 申请日期 | 2016.06.07 |
申请人 | 四川大学 | 发明人 | 李川;李旺龙 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 四川省成都市天策商标专利事务所 51213 | 代理人 | 袁辰亮 |
主权项 | 一种面向海量数据流的实时并行分类方法,其特征在于:所述的方法包括以下步骤:步骤一、数据Spout数量为1,连续产生数据记录;步骤二、过滤批化Bolt数量为1,接收数据消息,对收集的数据进行过滤筛选,并积累成批发送给模型Bolt;步骤三、模型Bolt数量为1,对一批数据进行处理,将数据的分类结果,发送给评估Bolt进行评估;将数据进行分解,然后发送给局部统计与计算Bolt的对应Task;当数据所在的叶节点通过划分测试时,向局部统计与计算Bolt的所有Task发送计算消息,请求划分结果;收到局部统计与计算Bolt的所有Task发来的计算结果后,判断是否执行最终划分,如果通过最终划分测试,则执行划分操作,并向局部统计与计算Bolt的所有Task发送删除划分前叶节点的统计信息的消息;步骤四、局部统计与计算Bolt数量为n,收到批属性数据消息时,更新属性相关统计信息;收到计算消息时,计算对应节点的最优划分评估分数;收到删除消息时,删除模型中已经完成分割的节点的属性相关统计信息;步骤五、评估Bolt。 | ||
地址 | 610000 四川省成都市一环路南一段24号 |