发明名称 一种基于分布式环境的海量数据快速分类方法
摘要 本发明提供一种基于分布式环境的海量数据快速分类方法,从训练、分类及分布式部署三个模块进行开发实施。该一种基于分布式环境的海量数据快速分类方法和现有技术相比,大大降低算法的复杂度,可以在损失很小准确率甚至不减少准确率的情况下,大大减少时间消耗;实用性强,适用范围广泛,易于推广。
申请公布号 CN103744899A 申请公布日期 2014.04.23
申请号 CN201310725398.0 申请日期 2013.12.25
申请人 浪潮电子信息产业股份有限公司 发明人 付兴旺
分类号 G06F17/30(2006.01)I;G06K9/66(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于分布式环境的海量数据快速分类方法,其特征在于其具体分类步骤包括:一、训练阶段;二、分类阶段,该阶段的详细过程为:该分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本;对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树;对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点;分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果;在具体样本分类时,通过主节点进行任务的分配,此外,主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。
地址 250014 山东省济南市高新区舜雅路1036号