发明名称 一种基于数据模式的板形时间序列数据挖掘方法
摘要 本发明提供一种基于数据模式的板形时间序列数据挖掘方法,采用数据模式对冷轧板生产的PDA监测数据进行数据预处理,排除原始数据中的噪声数据、空缺数据及不一致数据;对数据预处理完的数据进行频繁一项集和多项集的发现,找出频繁一项集和多项集;对频繁项集发现过程中找出的频繁项集进行关联规则的发现,找出隐藏在数据里面潜在的关联规则。本发明通过在Apriori算法中引入和使用平均支持度和平均置信度阈值,可高效挖掘出时间序列数据中有意义的频繁项集和关联规则,有效去除无意义的数据关联,为高精度板形控制提供数据依据,极大缩短板形调整时间,提高板形控制精度,使板形综合指标稳定控制在5I以内。
申请公布号 CN103341506B 申请公布日期 2015.03.11
申请号 CN201310287558.8 申请日期 2013.07.10
申请人 鞍钢股份有限公司 发明人 柴明亮;王军生;张岩;刘宝权;秦大伟;宋君;侯永刚
分类号 B21B37/28(2006.01)I 主分类号 B21B37/28(2006.01)I
代理机构 鞍山华惠专利事务所 21213 代理人 赵长芳
主权项 一种基于数据模式的板形时间序列数据挖掘方法,采用Apriori算法,其特征在于,通过引入和使用平均支持度和平均置信度阈值,高效挖掘出时间序列数据中有意义的频繁项集和关联规则,有效去除无意义的数据关联,为高精度板形控制提供数据依据;包括数据预处理、频繁项集发现、关联规则发现三个步骤;数据预处理:采用数据模式对冷连轧生产现场的PDA监测数据进行数据预处理,排除原始数据中的噪声数据、空缺数据及不一致数据,为数据频繁项集和关联规则进行数据准备;频繁项集发现:对数据预处理完的数据进行频繁一项集和多项集的发现,找出频繁一项集和多项集,为快速调整板形提供数据参考;关联规则发现:对频繁项集发现过程中找出的频繁项集进行关联规则的发现,找出隐藏在数据里面潜在的关联规则,为冷连轧板形调整提供数据参考;数据模式:若某一时刻<img file="dest_path_image002.GIF" wi="21" he="18" />数据能够反映某一段时间<img file="dest_path_image004.GIF" wi="102" he="22" />数据的综合信息,则定义这一时刻的数据为一类数据模式;这段时间数据的最大值<img file="dest_path_image006.GIF" wi="45" he="25" />和最小值<img file="dest_path_image008.GIF" wi="44" he="24" />,则<img file="531674dest_path_image002.GIF" wi="21" he="18" />时刻数据模式的数值<img file="dest_path_image010.GIF" wi="32" he="24" />为<img file="979972dest_path_image004.GIF" wi="102" he="22" />这段时间的平均值;其中,I为任意时间,N为时间间隔;数据模式包含:若<img file="759710dest_path_image002.GIF" wi="21" he="18" />时刻数据的最大值<img file="810711dest_path_image006.GIF" wi="45" he="25" />和最小值<img file="625083dest_path_image008.GIF" wi="44" he="24" />,定义为数据模式<img file="dest_path_image012.GIF" wi="17" he="18" />;另一时刻<img file="dest_path_image014.GIF" wi="64" he="22" />数据的最大值<img file="dest_path_image016.GIF" wi="90" he="25" />和最小值<img file="dest_path_image018.GIF" wi="89" he="24" />,定义为数据模式<img file="dest_path_image020.GIF" wi="17" he="18" />;若存在关系<img file="dest_path_image022.GIF" wi="148" he="25" />且<img file="dest_path_image024.GIF" wi="145" he="24" />,则称数据模式<img file="916387dest_path_image012.GIF" wi="17" he="18" />包含数据模式<img file="183421dest_path_image020.GIF" wi="17" he="18" />,即<img file="dest_path_image026.GIF" wi="46" he="21" />;数据模式预处理算法流程如下:<img file="dest_path_image028.GIF" wi="17" he="21" />、 定义数据模式时间间隔N,找出所有数据模式以及所对应的最大值和最小值;(2)、合并数据模式,循环处理,根据数据模式包含,找出相似模式,进行合并处理,同时该种数据模式支持度加1;(3)、对各个数据模式进行分类汇总;经对冷连轧板形PDA监测数据进行以上处理后,构建板形相关数据空间<img file="dest_path_image030.GIF" wi="112" he="25" />,T<sub>I</sub> 为倾斜,B<sub>I</sub>为中间辊弯辊力, B<sub>W</sub>为工作辊弯辊力,CVC为辊型;利用Apriori算法寻找最大项目集:算法需要对数据集进行多步处理;第一步,简单统计所有含一个元素项目集出现的频率,并找出那些不小于最小支持度的项目集, 即一维最大项目集;从第二步开始循环处理直到再没有最大项目集生成;循环过程是:第k步中, 根据第k‑1步生成的(k‑1)维最大项目集产生k维候项目集,然后对数据库进行搜索,得到候项目集的项集支持度, 与最小支持度比较, 从而找到k维最大项目集;一旦由数据库D中的事务找出频繁项集,则由这些频繁项集产生强关联规则,规则的支持度和置信度需满足最小支持度阈值和最小置信度阈值,最小支持度阈值和最小置信度阈值均为预先设定的经验值;基于平均阈值的Apriori算法关联规则挖掘流程如下:<img file="67807dest_path_image028.GIF" wi="17" he="21" />、频繁项集的生成:根据数据库计算一项集的支持度及其平均值,找出支持度大于等于平均支持度的项,作为频繁一项集;循环处理;第k步,根据k‑1步频繁的k‑1项集L<sub>k‑1</sub>按照Apriori_gen产生候选的k项集C<sub>k</sub>集,对候选的k项集计算每项的支持度及其平均值,找出支持度大于等于平均支持度的项,作为频繁k项集;(2)、根据规则结论中的项目数,把规则进行分类,计算每类中各个规则的置信度及其每类的平均置信度,把每类的平均置信度作为该类的最小置信度,找出置信度不低于最小置信度的规则即为关联规则。
地址 114021 辽宁省鞍山市铁西区鞍钢厂区内