发明名称 一种基于时间序列的APRIORI算法改进方法
摘要 本发明提供一种基于时间序列的APRIORI算法改进方法,Apriori算法改进方法用于关联规则的挖掘,旨在解决基于时间序列的关联规则挖掘问题。(1)对基于一定时间间隔划分的事务集进行去重;(2)同一事务中重复项的主动、被动处理;(3)频繁项集频数统计方法改进。(4)AprioriAppri算法的storm分布式改造。本发明的使用能够有效避免因以一定时间间隔抽取事务时,重复抽取某些事务所带来的重复性统计,保证了频繁事务、频繁项集的唯一性和准确性;基于时间序列,将频繁项集中的项间关系区分为主动诱发与被动诱发,很好的体现了项间的先后诱发顺序。
申请公布号 CN105224616A 申请公布日期 2016.01.06
申请号 CN201510595061.1 申请日期 2015.09.18
申请人 浪潮软件股份有限公司 发明人 于晓晨;郝伟;王宁;娄海凤;宋增璞
分类号 G06F17/30(2006.01)I;G06Q50/00(2012.01)I;G06K9/62(2006.01)I;H04L12/24(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于时间序列的APRIORI算法改进方法,其特征在于基于时间序列的Apriori算法改进避免了以时间序列为基准抽取出的重复事务及频繁项,优化了支持度及置信度的计算方法,并以storm分布式改造来计算故障间的相关性,提高了关联规则的质量和运算效率;故障数据是按一定的时间序列发生并记录下来的,为了分析设备故障发生的相关性,应对故障数据进行划分;经过对以时间为单位划分故障数据及以故障为单位划分方法有确定的优劣对比,确定以一定的时间间隔为标准,对故障数据进行截取;设定一定的时间间隔区间,以第一个设备故障信息为起点,获取第一个故障序列;从下一个设备故障数据开始,到规定的时间范围内,生成第二个故障序列;按照上述方法,获取故障样本数据中的所有故障序列;扫描所获得的故障序列库,获取所有1‑项集,并计算所有一项集的频数,以此获取可能的2‑项集;扫描设备故障数据,得到所有2‑项集;确定2‑项集的个数及种类,区分(A,B)和(B,A),根据设备故障的时间标识,去除重复的二项集;计算2‑项集的支持度,计算满足最小支持度的2‑项集的置信度;需要注意的是,支持度及置信度需以优化后的公式进行计算,其中,N(A)及N(B)分别表示包含A或B的所有2‑项集的个数,而不是A或B的1‑项集的数目;将满足所设定的最小置信度的二项集输出,并结合业务作出相应的解释;Apriori算法的storm分布式改造主要用于大数据量的故障信息的相关性,诱发分析计算需要耗费大量的时间,造成用户长时间的等待,通过分布式改造将相关性计算写在一个拓扑类里面,并且在拓扑类里面定义好程序运行时候的各个spout;bolt节点以及他们的并行度,从而可以让多个机器同时并行执行相关性诱发性分析计算,最后将计算结果汇总,从而大幅度的挺高了运行效率,提高了用户的体验;将拓扑类运行在storm集群环境中,然后通过远程drpc调用获得返回的计算结果,最后将结果汇总。
地址 250101 山东省济南市高新区浪潮路1036号