发明名称 顾及数据不确定性的关联规则显著性检验方法及装置
摘要 本发明适用于数据挖掘技术领域,提供了顾及数据不确定性的关联规则显著性检验方法及装置。所述方法包括:获取关联规则,并判断获取的所述关联规则是否为高效规则;若所述关联规则不为所述高效规则,则认为所述关联规则为虚假规则;若所述关联规则为所述高效规则,则对所述关联规则进行统计检验,并判断所得检验统计量的值是否低于预设显著性水平,若是,则接受所述关联规则为真实规则;若否,则认为所述关联规则为虚假规则。本发明基于统计健全检验法,能将族错误率控制在较低水平;修正随机数据误差对所述统计检验运算的影响,由此显著恢复由于随机数据误差引起的统计检验结果中真实规则的丢失,大大提高了关联规则挖掘结果的可靠性。
申请公布号 CN105989095A 申请公布日期 2016.10.05
申请号 CN201510076329.0 申请日期 2015.02.12
申请人 香港理工大学深圳研究院 发明人 史文中;张安舒
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳中一专利商标事务所 44237 代理人 张全文
主权项 一种顾及数据不确定性的关联规则显著性检验方法,其特征包括:获取关联规则,并判断获取的所述关联规则是否为高效规则;若所述关联规则不为所述高效规则,则认为所述关联规则为虚假规则;若所述关联规则为所述高效规则,则对所述关联规则进行统计检验,并判断所得检验统计量p的值是否低于预设显著性水平,若是,则接受所述关联规则为真实规则;若否,则认为所述关联规则为虚假规则;所述统计检验涉及的每一个数据模式为若干数据项的集合,每个数据项指的是数据中一个属性中的一个类别,每个属性的误差概率分布为已知;所述对所述关联规则进行统计检验,计算检验统计量的值包括:对所述统计检验涉及的每一个数据模式,将其中指定数据项所对应的属性的误差概率分布表达为误差矩阵,所述误差矩阵包括指定属性的全部k个类别之间的误差分布,其中,指定属性指的是所述指定数据项对应的属性,k为大于1的整数;根据所述误差矩阵,对数据误差的传播进行建模,得到所述k个类别的观测支持度分布期望及方差;根据所估计的k个类别的观测支持度分布以及所述误差矩阵,计算所述k个类别的真实支持度估计值;以c<sub>i</sub>表示所述统计检验涉及的数据模式中的指定数据项,将所述k个类别中的每个类别与所述数据模式中除c<sub>i</sub>以外的所有数据项求并集,得到k个并集,其中包含c<sub>i</sub>的并集即为所述数据模式;根据所述k个类别的真实支持度估计值,以及k个并集在数据中的支持度观测值,计算所述数据模式的真实支持度估计值;根据所述统计检验所涉及数据模式的真实支持度估计值,计算所述统计检验的第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值,以对第一参数观测值、第二参数观测值、第三参数观测值以及第四参数观测值受到数据误差的影响进行修正;根据所述第一参数估计真值、第二参数估计真值、第三参数估计真值以及第四参数估计真值计算所述检验统计量p的值。
地址 518000 广东省深圳市南山区高新园南区粤兴一道18号香港理工大学产学研大楼205室