发明名称 |
数据挖掘方法和装置 |
摘要 |
本发明公开了一种数据挖掘方法和装置,属于数据挖掘领域。方法包括:扫描事务数据库,得到多个事务以及至少一个项目;获取多个候选项集;对于每个候选项集,根据候选项集中每个项目的权重以及包括候选项集的指定事务的数目,计算候选项集的加权支持度;根据每个指定事务的发生时间,计算候选项集的时效值;判断候选项集的时效值是否大于第一阈值,以及加权支持度是否大于第二阈值;当时效值大于第一阈值且加权支持度大于第二阈值时,将候选项集确定为近期高权重频繁项集。本发明考虑到项集的时效性因素,降低了出现干扰的可能性,且挖掘出的近期高权重频繁项集中的项目之间的关联规则可以准确体现近期的关联规则,提高了准确性和实用性。 |
申请公布号 |
CN106033424A |
申请公布日期 |
2016.10.19 |
申请号 |
CN201510106336.0 |
申请日期 |
2015.03.11 |
申请人 |
哈尔滨工业大学深圳研究生院;深圳市腾讯计算机系统有限公司 |
发明人 |
林浚玮;王巨宏;陈伟;甘文生 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京三高永信知识产权代理有限责任公司 11138 |
代理人 |
祝亚男 |
主权项 |
一种数据挖掘方法,其特征在于,所述方法包括:扫描事务数据库,得到所述事务数据库中的多个事务以及每个事务包括的至少一个项目;根据所述事务数据库中的至少一个项目,获取多个候选项集;对于每个候选项集,根据所述候选项集中每个项目的权重以及包括所述候选项集的指定事务的数目,计算所述候选项集的加权支持度;根据每个指定事务的发生时间,计算所述候选项集的时效值;判断所述候选项集的时效值是否大于第一阈值;判断所述候选项集的加权支持度是否大于第二阈值;当所述时效值大于所述第一阈值且所述加权支持度大于所述第二阈值时,将所述候选项集确定为近期高权重频繁项集。 |
地址 |
518055 广东省深圳市西丽深圳大学城哈工大校区 |