一种基于Hadoop的频繁闭项集挖掘方法,申请号CN201210072524.2-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于Hadoop的频繁闭项集挖掘方法
摘要	本发明公开了一种基于Hadoop的频繁闭项集挖掘方法，包括如下步骤：并行计数：并行地扫描一次数据库，统计数据库中每个数据项的频繁次数；构造全局F-List和G-List：并行挖掘局部频繁闭项集：再次扫描数据库，在各个节点采用第一算法挖掘局部频繁闭项集，并只保存全局频繁闭项集。本发明方法基于Group分配计算任务，使得计算量的分配更加均衡；同时，该方法更加简洁，只要三个步骤(两次Map-Reduce过程)就可以完成挖掘任务。
申请公布号	CN102622447B	申请公布日期	2014.03.05
申请号	CN201210072524.2	申请日期	2012.03.19
申请人	南京大学;南京大学江阴信息技术研究院	发明人	高阳;杨育彬;陈光鹏;商琳
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	南京苏高专利商标事务所(普通合伙) 32204	代理人	夏雪
主权项	一种基于Hadoop的频繁闭项集挖掘方法，包括如下步骤：步骤1，并行计数：统计数据库中每个数据项出现的次数；此步骤并行地扫描一次数据库，按行读取，统计其中每一项的频繁次数；步骤2，构造全局F‑List和G‑List：此步骤以上一步并行计数的输出结果为输入，取满足最小支持度min_sup的项，按其频繁次数由大到小进行排序，结果存放在全局F‑List中；再在该全局F‑List的基础上，构造G‑List，使得具有相同支持度的项集必须在一个Group的情况下，各个Group的计算量尽量均衡；步骤3，基于Groups并行挖掘局部频繁闭项集：此步骤是并行操作的，再次扫描数据库，在各个节点用AFOPT算法挖掘局部频繁闭项集,并只保存全局频繁闭项集；Mapper按行读取数据，每一行即一条事务；将其中的各数据项以全局F‑List的顺序进行再排序；然后，从右向左，依次以新事务中的数据项在G‑List中所在的Group的id为key，以出现在该数据项左边的数据项集为value发出；从而,同一个Group的项集的相关事务都会汇聚在一起；Reducer用接收到的所有事务，构造一棵AFOPT；然后用挖掘频繁闭项集AFOPT‑Closed算法，递归地在该树中挖掘频繁闭项集；此时得到的频繁闭项集都是以同一Group的项集为条件的局部频繁闭项集；将这些频繁闭项集按照全局F‑list排序，最左侧的项的Group‑id为本group的事务，即为全局闭项集。
地址	210046 江苏省南京市仙林大道163号

您可能感兴趣的专利

一种带有顶杆的模具

一种循环冷却水直流电解处理工艺及设备

一种镁渣、粉煤灰自热水合连续制备脱硫剂的方法及装置

正型感光性硅氧烷组合物

一种治疗高血压的药物

绿色豆腐面条

一种锌及锌合金熔体复合离心净化方法

一种整体式饼干烘烤炉

新型中性笔

基于平面变压器的可控硅恒流驱动电路

防除养殖海参区水生杂草的复配药剂及制备方法和应用

一种带照明灯的直向磨光机

一种管线钢夹杂物控制用熔渣

一种过滤器

用于在连接方之间分配视频会议资源的系统及其方法

带客流量观测功能电梯的控制方法及其所用控制装置

精密加工设备与定位方法

一种一异丙醇胺缓凝引气剂的制备方法