发明名称 | 一种高效挖掘关联规则中频繁项集的方法 | ||
摘要 | 本发明提供一种高效挖掘关联规则中频繁项集的方法,属于数据挖掘技术领域,本发明通过支持度矩阵表示数据库中所有一项集和二项集的支持度,减轻内存负担,减少扫描数据库次数,通过生成二项集支持度矩阵避免了产生无效的二项集,解决了二项集瓶颈的问题。同时利用矩阵的优势对连接和剪枝步做了改进,提高了挖掘频繁项的效率。 | ||
申请公布号 | CN106294617A | 申请公布日期 | 2017.01.04 |
申请号 | CN201610621635.2 | 申请日期 | 2016.07.29 |
申请人 | 浪潮软件集团有限公司 | 发明人 | 王洪添;刘丽娜 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 济南信达专利事务所有限公司 37100 | 代理人 | 姜明 |
主权项 | 一种高效挖掘关联规则中频繁项集的方法,其特征在于,(1)扫描数据库,构造二项集的支持度矩阵;分别以项目集合I中的各个项作为矩阵的行标和列标,用Iik表示项二项集{Ii,Ik}(i≤k)在事务数据库D中出现的次数,此矩阵为对称矩阵;(2)逐行扫描矩阵,找出该行中不小于最小支持度计数的元素Iij,到j行搜索该行中不小于最小支持度计数的元素Ijk,再定位到矩阵Iik中,若Iik不小于最小支持度计数,则连接生成候选三项集{Ii,Ij,Ik};(3)由Ck生成候选k+1项集表Ck+1(k≥3),由于生成的候选k项集表Ck是按字典顺序排列的,对于每个候选k项集X,从X在Ck之后的位置中查找以X后k‑1个项开始的其他候选k项集,若找到这样一个候选k项集Y,则把X的第一个项Ir和Y的最后一个项Is的标号连接形成矩阵坐标[r,s],到矩阵M中查找这个坐标上的值是否大于最小支持度计数,如果大于或等于,则生成候选k+1项集,如果不大于,则不予连接,继续查找下一个,直到Ck中的最后一个k项集,至此候选k+1项集表构造结束;(4)第二次扫描数据库,因在生成支持度矩阵时,已经产生了频繁二项集,所以这里只对生成的候选k项集表Ck(k≥3) 中的每个k项集进行计数,并对其进行筛选,最后形成频繁k项集。 | ||
地址 | 250100 山东省济南市高新区科航路2877号 |