发明名称 |
一种数据库近似字典规则的挖掘方法、系统及数据库终端 |
摘要 |
本发明适用于近似字典规则挖掘领域,提供了一种数据库近似字典规则的挖掘方法、系统及数据库终端,所述近似字典依赖规则挖掘方法包括如下步骤:对数据库r进行扫描分析,剔除单一值列和所有值都唯一的列,其余候选列集记为R;统计所述候选列集R各列中各项的支持度,并对支持度大于给定最小支持度的项用整数编码;将所述数据库r的每一行事务按顺序编号,并以列表记录所述各项包含的行事务编号,再缓存;使用DCfd的方法挖掘数据库r的近似字典规则;输出所述近似字典规则。在本发明中,通过在数据库中运用DCfd的近似字典规则挖掘方法,采用逆序递增的搜索策略,并通过修剪方法对搜索树进行剪枝,同时缓存已经发现的规则,可减少整个挖掘方法的计算量,自动、高效地找出数据库中的近似字典规则。 |
申请公布号 |
CN102968481B |
申请公布日期 |
2016.11.16 |
申请号 |
CN201210471789.X |
申请日期 |
2012.11.20 |
申请人 |
深圳市华傲数据技术有限公司 |
发明人 |
王明兴;贾西贝 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京酷爱智慧知识产权代理有限公司 11514 |
代理人 |
赵永辉 |
主权项 |
一种数据库近似字典规则的挖掘方法,其特征在于,所述方法包括如下步骤:步骤S1:对数据库r进行扫描分析,剔除单一值列和所有值都唯一的列,其余候选列集记为R;步骤S2:统计所述候选列集R各列中各项的支持度,并对支持度大于给定最小支持度的项用整数编码;步骤S3:以位数组VD[M]储存所述数据库r的数据,计算各项对应的位数组中1值的个数,并计算项集的事务个数;步骤S4:使用DCfd的方法挖掘数据库r的近似字典规则;步骤S5:输出所述近似字典规则;其中,步骤S4中使用DCfd的方法挖掘数据库r的近似字典规则包括以下步骤:步骤S41:对所述候选列集R排序,采用策略搜索满足条件的近似字典规则左部;步骤S42:对所述策略搜索的搜索空间,采用修剪方法对搜索树进行剪枝,压缩所述搜索空间;步骤S43:对所述经过压缩的搜索空间进行计算并生成近似字典规则右部,同时生成近似字典规则;步骤S44:缓存所述生成的近似字典规则。 |
地址 |
518057 广东省深圳市高新区中区高新中一道9号软件大厦7楼713室 |