发明名称 |
一种关联规则数据挖掘算法的并行计算方法及装置 |
摘要 |
本发明实施例公开了一种关联规则数据挖掘算法的并行计算方法,采用并行计算和分布式数据存储的方式,能够解决现有技术所存在的瓶颈和缺点,实现海量数据的快速、简单关联规则挖掘。本发明实施例方法包括:定义最小支持度和最小置信度;扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;根据所述最小支持度筛选所述一维候选集,得到新候选集;根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;根据键值Key将可能候选集Val分发到并行计算集群;根据预设规则分别对各并行计算集群进行计算,得到计算结果;将所述计算结果汇总并产生关联规则集。 |
申请公布号 |
CN103440351A |
申请公布日期 |
2013.12.11 |
申请号 |
CN201310432964.9 |
申请日期 |
2013.09.22 |
申请人 |
广州中国科学院软件应用技术研究所 |
发明人 |
罗建;李引;袁峰 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
曹志霞 |
主权项 |
一种关联规则数据挖掘算法的并行计算方法,其特征在于,包括:定义最小支持度和最小置信度;扫描数据库产生一维候选集及其支持度和数据最大维度并将源数据按数据维度分成多个分布式存储的数据库;根据所述最小支持度筛选所述一维候选集,得到新候选集;根据所述新候选集产生所有维度大于1且不大于最大维度的可能候选集键值对<Key,Val>;根据键值Key将可能候选集Val分发到并行计算集群;根据预设规则分别对各并行计算集群进行计算,得到计算结果;将所述计算结果汇总并产生关联规则集。 |
地址 |
511458 广东省广州市南沙区海滨路1121号A栋8楼 |