主权项 |
一种基于时间序列的APRIORI算法改进方法,其特征在于基于时间序列的Apriori算法改进避免了以时间序列为基准抽取出的重复事务及频繁项,优化了支持度及置信度的计算方法,并以storm分布式改造来计算故障间的相关性,提高了关联规则的质量和运算效率;故障数据是按一定的时间序列发生并记录下来的,为了分析设备故障发生的相关性,应对故障数据进行划分;经过对以时间为单位划分故障数据及以故障为单位划分方法有确定的优劣对比,确定以一定的时间间隔为标准,对故障数据进行截取;设定一定的时间间隔区间,以第一个设备故障信息为起点,获取第一个故障序列;从下一个设备故障数据开始,到规定的时间范围内,生成第二个故障序列;按照上述方法,获取故障样本数据中的所有故障序列;扫描所获得的故障序列库,获取所有1‑项集,并计算所有一项集的频数,以此获取可能的2‑项集;扫描设备故障数据,得到所有2‑项集;确定2‑项集的个数及种类,区分(A,B)和(B,A),根据设备故障的时间标识,去除重复的二项集;计算2‑项集的支持度,计算满足最小支持度的2‑项集的置信度;需要注意的是,支持度及置信度需以优化后的公式进行计算,其中,N(A)及N(B)分别表示包含A或B的所有2‑项集的个数,而不是A或B的1‑项集的数目;将满足所设定的最小置信度的二项集输出,并结合业务作出相应的解释;Apriori算法的storm分布式改造主要用于大数据量的故障信息的相关性,诱发分析计算需要耗费大量的时间,造成用户长时间的等待,通过分布式改造将相关性计算写在一个拓扑类里面,并且在拓扑类里面定义好程序运行时候的各个spout;bolt节点以及他们的并行度,从而可以让多个机器同时并行执行相关性诱发性分析计算,最后将计算结果汇总,从而大幅度的挺高了运行效率,提高了用户的体验;将拓扑类运行在storm集群环境中,然后通过远程drpc调用获得返回的计算结果,最后将结果汇总。 |