发明名称 |
海量交易数据中频繁项目集的挖掘方法及查询方法 |
摘要 |
本发明公开一种海量交易数据中频繁项目集的挖掘方法,其包括:A)收集原始交易数据,并更新与原始交易数据对应的索引文件;B)查询是否存在未处理的原始交易数据;若存在,则执行步骤C);若未存在,则返回步骤A);C)对未处理的原始交易数据进行预处理,并将经过预处理的原始交易数据导入到分布式文件系统中;D)利用均衡的并行频繁项目集增长算法对导入到分布式文件系统中的经过预处理的原始交易数据进行计算,进而得到频繁项目集;E)将由步骤D)得到的频繁项目集导入到分布式文件系统中;F)更新与经过步骤C)至步骤E)处理的原始交易数据对应的索引文件。本发明还公开一种海量交易数据中频繁项目集的查询方法。 |
申请公布号 |
CN104679773A |
申请公布日期 |
2015.06.03 |
申请号 |
CN201310629404.2 |
申请日期 |
2013.11.29 |
申请人 |
中国科学院深圳先进技术研究院 |
发明人 |
高琴;李俊杰;黄哲学 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市铭粤知识产权代理有限公司 44304 |
代理人 |
杨林;马翠平 |
主权项 |
一种海量交易数据中频繁项目集的挖掘方法,其特征在于,所述挖掘方法包括以下步骤:A)收集原始交易数据,并更新与原始交易数据对应的索引文件;B)查询是否存在未处理的原始交易数据,其中,若存在未处理的原始交易数据,则执行步骤C);若未存在未处理的原始交易数据,则返回步骤A);C)对未处理的原始交易数据进行预处理,并将经过预处理的原始交易数据导入到分布式文件系统中;D)利用均衡的并行频繁项目集增长算法对导入到分布式文件系统中的经过预处理的原始交易数据进行计算,进而得到频繁项目集;E)将由步骤D)得到的频繁项目集导入到分布式文件系统中;F)更新与经过步骤C)至步骤E)处理的原始交易数据对应的索引文件。 |
地址 |
518055 广东省深圳市南山区西丽大学城学苑大道1068号 |