一种基于数据模式的板形时间序列数据挖掘方法,申请号CN201310287558.8-传众专利搜索

发明名称	一种基于数据模式的板形时间序列数据挖掘方法
摘要	本发明提供一种基于数据模式的板形时间序列数据挖掘方法，采用数据模式对冷轧板生产的PDA监测数据进行数据预处理，排除原始数据中的噪声数据、空缺数据及不一致数据；对数据预处理完的数据进行频繁一项集和多项集的发现，找出频繁一项集和多项集；对频繁项集发现过程中找出的频繁项集进行关联规则的发现，找出隐藏在数据里面潜在的关联规则。本发明通过在Apriori算法中引入和使用平均支持度和平均置信度阈值，可高效挖掘出时间序列数据中有意义的频繁项集和关联规则，有效去除无意义的数据关联，为高精度板形控制提供数据依据，极大缩短板形调整时间，提高板形控制精度，使板形综合指标稳定控制在5I以内。
申请公布号	CN103341506B	申请公布日期	2015.03.11
申请号	CN201310287558.8	申请日期	2013.07.10
申请人	鞍钢股份有限公司	发明人	柴明亮;王军生;张岩;刘宝权;秦大伟;宋君;侯永刚
分类号	B21B37/28(2006.01)I	主分类号	B21B37/28(2006.01)I
代理机构	鞍山华惠专利事务所 21213	代理人	赵长芳
主权项	一种基于数据模式的板形时间序列数据挖掘方法，采用Apriori算法，其特征在于，通过引入和使用平均支持度和平均置信度阈值，高效挖掘出时间序列数据中有意义的频繁项集和关联规则，有效去除无意义的数据关联，为高精度板形控制提供数据依据；包括数据预处理、频繁项集发现、关联规则发现三个步骤；数据预处理：采用数据模式对冷连轧生产现场的PDA监测数据进行数据预处理，排除原始数据中的噪声数据、空缺数据及不一致数据，为数据频繁项集和关联规则进行数据准备；频繁项集发现：对数据预处理完的数据进行频繁一项集和多项集的发现，找出频繁一项集和多项集，为快速调整板形提供数据参考；关联规则发现：对频繁项集发现过程中找出的频繁项集进行关联规则的发现，找出隐藏在数据里面潜在的关联规则，为冷连轧板形调整提供数据参考；数据模式：若某一时刻<img file="dest_path_image002.GIF" wi="21" he="18" />数据能够反映某一段时间<img file="dest_path_image004.GIF" wi="102" he="22" />数据的综合信息，则定义这一时刻的数据为一类数据模式；这段时间数据的最大值<img file="dest_path_image006.GIF" wi="45" he="25" />和最小值<img file="dest_path_image008.GIF" wi="44" he="24" />，则<img file="531674dest_path_image002.GIF" wi="21" he="18" />时刻数据模式的数值<img file="dest_path_image010.GIF" wi="32" he="24" />为<img file="979972dest_path_image004.GIF" wi="102" he="22" />这段时间的平均值；其中，I为任意时间，N为时间间隔；数据模式包含：若<img file="759710dest_path_image002.GIF" wi="21" he="18" />时刻数据的最大值<img file="810711dest_path_image006.GIF" wi="45" he="25" />和最小值<img file="625083dest_path_image008.GIF" wi="44" he="24" />，定义为数据模式<img file="dest_path_image012.GIF" wi="17" he="18" />；另一时刻<img file="dest_path_image014.GIF" wi="64" he="22" />数据的最大值<img file="dest_path_image016.GIF" wi="90" he="25" />和最小值<img file="dest_path_image018.GIF" wi="89" he="24" />，定义为数据模式<img file="dest_path_image020.GIF" wi="17" he="18" />；若存在关系<img file="dest_path_image022.GIF" wi="148" he="25" />且<img file="dest_path_image024.GIF" wi="145" he="24" />,则称数据模式<img file="916387dest_path_image012.GIF" wi="17" he="18" />包含数据模式<img file="183421dest_path_image020.GIF" wi="17" he="18" />，即<img file="dest_path_image026.GIF" wi="46" he="21" />；数据模式预处理算法流程如下：<img file="dest_path_image028.GIF" wi="17" he="21" />、定义数据模式时间间隔N，找出所有数据模式以及所对应的最大值和最小值；(2)、合并数据模式，循环处理，根据数据模式包含，找出相似模式，进行合并处理，同时该种数据模式支持度加1；(3)、对各个数据模式进行分类汇总；经对冷连轧板形PDA监测数据进行以上处理后，构建板形相关数据空间<img file="dest_path_image030.GIF" wi="112" he="25" />，T<sub>I</sub> 为倾斜，B<sub>I</sub>为中间辊弯辊力， B<sub>W</sub>为工作辊弯辊力，CVC为辊型；利用Apriori算法寻找最大项目集：算法需要对数据集进行多步处理；第一步,简单统计所有含一个元素项目集出现的频率,并找出那些不小于最小支持度的项目集, 即一维最大项目集；从第二步开始循环处理直到再没有最大项目集生成；循环过程是：第k步中, 根据第k‑1步生成的(k‑1)维最大项目集产生k维候项目集，然后对数据库进行搜索，得到候项目集的项集支持度, 与最小支持度比较, 从而找到k维最大项目集；一旦由数据库D中的事务找出频繁项集，则由这些频繁项集产生强关联规则，规则的支持度和置信度需满足最小支持度阈值和最小置信度阈值，最小支持度阈值和最小置信度阈值均为预先设定的经验值；基于平均阈值的Apriori算法关联规则挖掘流程如下：<img file="67807dest_path_image028.GIF" wi="17" he="21" />、频繁项集的生成：根据数据库计算一项集的支持度及其平均值，找出支持度大于等于平均支持度的项,作为频繁一项集；循环处理；第k步，根据k‑1步频繁的k‑1项集L<sub>k‑1</sub>按照Apriori_gen产生候选的k项集C<sub>k</sub>集，对候选的k项集计算每项的支持度及其平均值，找出支持度大于等于平均支持度的项，作为频繁k项集；(2)、根据规则结论中的项目数，把规则进行分类，计算每类中各个规则的置信度及其每类的平均置信度，把每类的平均置信度作为该类的最小置信度，找出置信度不低于最小置信度的规则即为关联规则。
地址	114021 辽宁省鞍山市铁西区鞍钢厂区内