发明名称 一种动态数据环境下的数据流概念漂移可视化方法
摘要 本发明涉及智能信息处理技术领域,公开了一种动态数据环境下的数据流概念漂移可视化方法,包括:对数据流进行静态化处理,针对不同的概念漂移模式建立不同概念表达方式并保存到概念池中,当新数据块到来时利用KL散度算法,在概念池中寻找相似的概念表达,若存在则对其进行统计,否则将其加入到概念池中作为新的概念进行保存。本发明可以针对各种数据流改变漂移类型进行检测,并且通过统计能够充分分析数据流中概念漂移过程。最后根据统计结果利用贝叶斯方法绘制出概念漂移转移图,将其可视化,为后续在概念层面对数据挖掘提供帮助。
申请公布号 CN103150470B 申请公布日期 2015.12.23
申请号 CN201310052088.7 申请日期 2013.02.18
申请人 大连理工大学 发明人 冯林;姚远;陈沣
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 大连星海专利事务所 21208 代理人 徐淑东
主权项 一种动态数据环境下的数据流概念漂移可视化方法,具体包括以下步骤:步骤1:动态数据流收集模块(102)从海量实时数据流(101)中按照时间顺序收集数据;步骤2:数据流划分模块(103)读取步骤1中的数据流数据,并根据数据流中数据到达的先后顺序对数据流进行划分;所述数据流划分模块(103)划分得到的数据块中,包含N条记录;N是固定变量,由使用者提前设定;步骤3:将使用数据流划分模块(103)划分后得到静态数据块,输入到kdq树模块(104)中构建kdq树;其中,所述kdq树对应的阈值使用基于KL散度的自助法计算给出或由使用者直接给定;步骤4:将kdq树模块(104)所建立的kdq树、kdq树对应的阈值放入概念池(106)中保存;步骤5:概念检测模块(105)在数据流划分模块(103)得到一个新的数据块,并检测新数据块是否是新的概念,概念检测模块(105)的检测结果根据由原始数据块、新数据块的KL散度值与概念池(106)中保存的kdq树对应阈值的比较结果给出;在计算KL散度时需要对原始数据块进行离散化,离散化的结果由数据块通过kdq树的结果给出;步骤6:当数据流划分模块(103)获取新的数据块时,将此数据块与概念池(106)中所保存的概念进行比较,如果找到相似的概念,则对概念统计模块(107)进行更新;否则将此数据块作为新的概念加入概念池(106)中;步骤7:重复步骤1‑6直至数据流结束;此时将概念统计模块(107)中的统计信息进行汇总,计算出概念池(106)中每个概念的统计信息;步骤8:将上述统计信息输入到概念转移图模块(108),利用贝叶斯公式构建概念转移图,完成概念漂移可视化过程。
地址 116024 辽宁省大连市高新园区凌工路2号
您可能感兴趣的专利