发明名称 一种基于Hadoop的频繁闭项集挖掘方法
摘要 本发明公开了一种基于Hadoop的频繁闭项集挖掘方法,包括如下步骤:并行计数:并行地扫描一次数据库,统计数据库中每个数据项的频繁次数;构造全局F-List和G-List:并行挖掘局部频繁闭项集:再次扫描数据库,在各个节点采用第一算法挖掘局部频繁闭项集,并只保存全局频繁闭项集。本发明方法基于Group分配计算任务,使得计算量的分配更加均衡;同时,该方法更加简洁,只要三个步骤(两次Map-Reduce过程)就可以完成挖掘任务。
申请公布号 CN102622447B 申请公布日期 2014.03.05
申请号 CN201210072524.2 申请日期 2012.03.19
申请人 南京大学;南京大学江阴信息技术研究院 发明人 高阳;杨育彬;陈光鹏;商琳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 夏雪
主权项 一种基于Hadoop的频繁闭项集挖掘方法,包括如下步骤:步骤1,并行计数:统计数据库中每个数据项出现的次数;此步骤并行地扫描一次数据库,按行读取,统计其中每一项的频繁次数;步骤2,构造全局F‑List和G‑List:此步骤以上一步并行计数的输出结果为输入,取满足最小支持度min_sup的项,按其频繁次数由大到小进行排序,结果存放在全局F‑List中;再在该全局F‑List的基础上,构造G‑List,使得具有相同支持度的项集必须在一个Group的情况下,各个Group的计算量尽量均衡;步骤3,基于Groups并行挖掘局部频繁闭项集:此步骤是并行操作的,再次扫描数据库,在各个节点用AFOPT算法挖掘局部频繁闭项集,并只保存全局频繁闭项集;Mapper按行读取数据,每一行即一条事务;将其中的各数据项以全局F‑List的顺序进行再排序;然后,从右向左,依次以新事务中的数据项在G‑List中所在的Group的id为key,以出现在该数据项左边的数据项集为value发出;从而,同一个Group的项集的相关事务都会汇聚在一起;Reducer用接收到的所有事务,构造一棵AFOPT;然后用挖掘频繁闭项集AFOPT‑Closed算法,递归地在该树中挖掘频繁闭项集;此时得到的频繁闭项集都是以同一Group的项集为条件的局部频繁闭项集;将这些频繁闭项集按照全局F‑list排序,最左侧的项的Group‑id为本group的事务,即为全局闭项集。
地址 210046 江苏省南京市仙林大道163号