发明名称 基于归并聚类的并行化频繁概率子图搜索方法
摘要 本发明公开了一种基于归并聚类的并行化频繁概率子图搜索方法。本发明针对现有频繁子图搜索方法中时空消耗大、无法满足大数据环境要求等问题,首先采用节点电压法将概率子图映射为电路拓扑进行处理;然后利用归并聚类对概率子图进行聚类,有效降低时间开销;最后基于Spark框架对方法进行实现,进一步提升计算速度及可扩展性。
申请公布号 CN105354243A 申请公布日期 2016.02.24
申请号 CN201510666545.0 申请日期 2015.10.15
申请人 东南大学 发明人 杨鹏;顾梁;王春艳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 李玉平
主权项 一种基于归并聚类的并行化频繁概率子图搜索方法,其特征在于,包括以下步骤:步骤1:预处理概率子图;首先将待处理的概率网络(概率图),进行概率子图划分,得到指定节点个数的概率子图集,然后将这些概率子图对应的邻接矩阵存储为HDFS文件,并将所有概率子图集加载到弹性分布式数据集(Resilient Distributed Datasets,RDD);步骤2:对每个Spark计算节点中的概率子图,将其邻接矩阵转换成对应的伴随电路,通过添加一个参考节点,并根据节点电压法,得到概率子图的节点电压序列;步骤3:对每个Spark计算节点中的概率子图均进行归并聚类计算,得到若干概率子图同构类,直到每个计算节点均收敛,将结果汇总,对汇总的概率子图同构类再进行一次归并聚类;步骤4:计算每个概率子图同构类的概率子图数量,得出频率,进而得到频繁概率子图。
地址 210096 江苏省南京市玄武区四牌楼2号