发明名称 一种基于改进Apriori算法的雷电活动数据统计方法
摘要 本发明提供的一种基于改进Apriori算法的雷电活动数据统计方法,通过:1)计算加权支持度与加权置信度;2)垂直位矢量格式转换;3)频繁二项图生成;4)候选项集挖掘这四个步骤,结合实际需求对各项目赋予适当权值,将原有支持度与置信度改进为更符合实际的加权支持度与加权置信度。另外,算法使用位矢量垂直数据格式存储项目信息,节省存储空间并提高I/O效率,改进后的算法基于自顶向下的思想,利用频繁二项有向图首先找到满足支持度与置信度要求的最长频繁项集,再根据频繁集性质生成所有符合要求的频繁集。该算法不仅在空间和时间上提高Apriori算法的效率,还更贴合实际需求。
申请公布号 CN103593400A 申请公布日期 2014.02.19
申请号 CN201310480978.8 申请日期 2013.12.13
申请人 陕西省气象局 发明人 王卫民;李婧;雷欣;田社教;高莹
分类号 G06F17/30(2006.01)I;G06F19/00(2011.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西安亿诺专利代理有限公司 61220 代理人 康凯
主权项 一种基于改进Apriori算法的雷电活动数据统计方法,其特征在于,包括以下步骤:1)、计算加权支持度与加权置信度:为每个项目赋予[0,1]之间一个非负实数作为权值,以体现该项目的重要度,并根据该权值计算各项集的权重,进而推出项集的加权支持度与加权置信度,所述支持度与置信度定义是:项目集合I={ i1, i2, …, im}是由m个不同的项组成,交易数据库D中每一笔交易都是I的一个子集,关联规则的形式为X =>Y,其中X∈I,Y∈I,且X∩Y=,X的支持度sup(XUY)为XUY在交易数据库中出现的概率,X的信任度conf( XUY)为在某交易中包含X前提下同对也包含Y的概率.也就是说,关联规则X =>Y的支持度为数据库中包含XUY的交易数与总交易数之比;关联规则的信任度为数据库中包含XUY的交易数与包含X的交易数之比;2)、垂直位矢量格式转换:将原水平数据格式{事务标志:事务项集}转化为垂直数据格式{项:事务集},然后扫描数据库一次,计算出符合加权支持度与加权置信度的频繁项,并设置它们相应的位矢量;3)、频繁二项图生成:根据频繁项计算出符合关联规则的频繁2项集,以各个满足频繁2项集的项目作为节点,绘制出表示各个项目之间关系的有向图;4)候选项集挖掘:通过对频繁2项图的深度优先遍历,找到该图的最长路径,即为最长频繁项集,继而根据任何强项集的子集必定是强项集的性质,找出所有频繁集。
地址 710000 陕西省西安市莲湖区北关正街36号气象大厦801