发明名称 |
一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法 |
摘要 |
本发明涉及大数据处理技术领域,特别涉及一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法。本发明是先将大的原始数据集进行分解,将分解之后的子集分配给大数据平台上性能相近的节点,在分解之后的小数据集上运行近邻传播聚类算法,之后在近邻传播聚类算法得到的中心代表点上用加权近邻传播聚类算法进行进一步整合,得到最终的具有代表性的数据点集。本发明提供了一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法,其能够实现大数据的快速准确的聚类挖掘工作。 |
申请公布号 |
CN106570050A |
申请公布日期 |
2017.04.19 |
申请号 |
CN201610735684.9 |
申请日期 |
2016.08.26 |
申请人 |
浪潮集团有限公司 |
发明人 |
王俊杰;戴鸿君;于治楼 |
分类号 |
G06F17/30(2006.01)I;G06K9/62(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
济南信达专利事务所有限公司 37100 |
代理人 |
姜明 |
主权项 |
一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法,包括以下步骤:A、将大型原始数据集进行分解,将分解之后的子集分配给大数据平台上性能相近的节点;B、在分解之后的子集上运行近邻传播聚类算法,得到类的中心点集合;C、在近邻传播聚类算法得到的中心点集合上用加权近邻传播聚类算法进行进一步整合,得到最终的具有代表性的数据点集;D、重复上述步骤B、C,最终得到适合数量的聚类结果。 |
地址 |
250101 山东省济南市高新区浪潮路1036号 |