发明名称 一种基于内存计算的并行化聚类方法
摘要 本发明提供了一种基于内存计算的并行化聚类方法,其主旨在于解决聚类算法DBSCAN在处理海量数据下的效率问题,其方案为:S1:基于简单随机抽样的数据划分,以<ID,Raw_data>作为此阶段的输入,通过对原始数据进行简单随机抽样来完成数据的切分,并将切分的结果保存到不同的RDD;S2:利用内存计算模型在各个计算节点并行执行DBSCAN算法,对不同的RDD中的原始数据进行聚类,产生局部类簇;S3:基于重心合并所有的局部类簇,利用内存计算模型对局部类簇进行合并,从而产生全局聚类结果。本发明基于内存计算模型,通过简单的数据划分方式对原始数据进行切割,极大地提高了算法的处理效率。同时,基于重心距离的局部类簇合并能快速地构建全局类簇,满足了处理大规模数据的用户需求。
申请公布号 CN106203494A 申请公布日期 2016.12.07
申请号 CN201610519403.6 申请日期 2016.06.30
申请人 电子科技大学 发明人 田玲;罗光春;陈爱国;殷光强
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 成都弘毅天承知识产权代理有限公司 51230 代理人 徐金琼
主权项 一种基于内存计算的并行化聚类方法,包括如下步骤:S1:基于简单随机抽样的数据划分,以<ID,Raw_data>作为此阶段的输入,通过对原始数据进行简单随机抽样来完成数据的切分,并将切分的结果保存到不同的RDD;S2:利用内存计算模型在各个计算节点并行执行DBSCAN算法,对不同的RDD中的原始数据进行聚类,产生局部类簇;S3:基于重心合并所有的局部类簇,利用内存计算模型对局部类簇进行合并,从而产生全局聚类结果。
地址 611731 四川省成都市高新区(西区)西源大道2006号