发明名称 一种基于分布式结构的大数据聚类方法和装置
摘要 本发明提出了一种基于分布式结构的大数据聚类方法,包括:步骤S100,大数据预处理;步骤S200,大数据切分和管理;步骤S300,建立聚类用的超图模型;步骤S400,大数据映射,具体是将切分后的数据块分别映射到超图H=(V,E),即每个数据块映射到一个超图;步骤S500,利用超图对每个数据块分别进行聚类处理;步骤S600,对步骤S500得到的每个数据块的聚类结果进行再次聚类,得到最终的聚类结果。本发明利用云平台结合超图理论对大数据进行挖掘聚类处理,实现了大数据分析处理的快速、实时、准确。
申请公布号 CN104809242A 申请公布日期 2015.07.29
申请号 CN201510249247.1 申请日期 2015.05.15
申请人 成都睿峰科技有限公司 发明人 马泳宇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京天奇智新知识产权代理有限公司 11340 代理人 杨春
主权项 一种基于分布式结构的大数据聚类方法,包括:步骤S100,大数据预处理,通过填写缺失值、噪声数据光滑化、识别删除离群点将现实世界的数据进行清理,并将来自不同数据源的数据进行规范化处理,将其转换为标准格式的数据;步骤S200,大数据切分和管理:将大数据切块后,得到切分后的多个数据块,并将其存储到云平台的分布式文件系统HDFS中,Hadoop负责管理切分后的数据块;步骤S300,建立聚类用的超图模型,步骤S400,大数据映射,具体是将切分后的数据块分别映射到超图H=(V,E),即每个数据块映射到一个超图;步骤S500,利用超图对每个数据块分别进行聚类处理,步骤S600,对步骤S500得到的每个数据块的聚类结果进行再次聚类,得到最终的聚类结果。
地址 610041 四川省成都市高新区天府大道北段1480号拉德方斯大厦东楼10层