发明名称 基于数据挖掘的装备可靠性评估方法
摘要 本发明公开了一种基于数据挖掘的装备可靠性评估方法,它包括如下步骤:一是利用聚类算法对连续属性进行离散化;二是使用基于分类矩阵的决策树算法,对离散化数据建立分类模型,从而生成分类规则;三是基于分类规则对缺失数据和异常数据进行处理;四是使用基于目标项的Apriori算法,对装备可靠性影响因素进行挖掘,同时根据装备的基本数据建立装备的可靠性模型,利用灰色模型预测各个单元的可靠性,从而对装备整体可靠性进行评估。本发明的方法能快速准确的对装备的可靠性进行评估。
申请公布号 CN104820716A 申请公布日期 2015.08.05
申请号 CN201510264199.3 申请日期 2015.05.21
申请人 中国人民解放军海军工程大学 发明人 马良荔;覃基伟;李刚;孙煜飞;许国鹏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉开元知识产权代理有限公司 42104 代理人 黄行军;李满
主权项 一种基于数据挖掘的装备可靠性评估方法,其特征在于,它包括如下步骤:步骤1:需要将整个装备系统中装备可靠性相关的原始数据进行离散化,利用离散化的数据建立分类模型,再根据分类模型对原始数据中的异常数据进行处理,处理方法为通过分类模型进行规则匹配筛选得到异常数据,对于这些数据通过人工干预的方法进行修改或者删除,从而得到最终的规则数据集;上述装备可靠性相关的原始数据包括装备基本数据、装备故障数据、装备资料数据、备品备件数据和操作人员数据,其中装备故障数据包括故障发现人信息、现场温度信息、现场湿度信息、故障等级信息、故障单元信息和故障现象描述信息,装备故障数据和装备基本数据一起构成该数据挖掘方法的主要对象;上述分类模型的建立规则为用常规的基于分类矩阵的决策树算法来建立分类模型,首先删除与分类模型无关的属性,该属性为装备可靠性相关原始数据中数据库表的每个字段名,各个字段名分别反映装备可靠性的主题,各个数据库表中存储对应的装备可靠性相关的原始数据,对于上述装备可靠性相关的原始数据中的连续属性使用常规的K‑means算法进行离散化处理,上述连续属性表示该属性取值范围为某一区间的任意实数,从而最终得到离散化的完整数据集,通过随机不放回抽样的方式选取该完整数据集75%的数据作为训练样例来构成决策树;决策树的生成算法在ID3算法的基础上进行改进而来,通常的ID3算法是以计算信息增益量来选择信息增益最大的属性来进行决策树的分裂,假设在以上的原始数据的训练样例中,故障等级为目标属性,故障模式属性计算得到的信息增益最大,说明故障模式分类对故障等级属性的影响最大,则用故障模式属性作为决策树的根结点,决策树的二级节点由剩余属性信息增益最大值决定,以此类推最终形成决策树,目标属性作为决策树的叶节点,用目标属性以外的其它某一属性分别与目标属性间形成分类矩阵并建立属性间的映射,然后利用该分类矩阵完成对信息增益的计算,同时为了克服ID3算法的多值偏向问题,在ID3算法中引入一个权重因子来避免,在形成决策树的过程中,如果训练集中实例个数小于预设的阈值,则对决策树停止生长,形成的完整决策树即为所求的分类模型;步骤2:利用步骤1得到的最终规则数据集中的故障数据集D通过以下步骤201~步骤206所述的基于目标项的Apriori算法生成强关联规则,设立最小支持度阈值,最终确定可靠性影响因素及其支持度;步骤201:定义装备可靠性相关数据项集为I={i<sub>1</sub>,i<sub>2</sub>,…,i<sub>n</sub>},I中故障的装备单元项的集合为目标项集,记为I<sub>T</sub>,I中各类因素项的集合为非目标项集,记为I<sub>N</sub>,在关联规则项集生成过程中,非目标项集I<sub>N</sub>的元素只作为强关联的条件,目标项集I<sub>T</sub>的元素只作为强关联的结果,该种处理方法便于判定各种因素与装备单元间的联系,将步骤1预处理之后的最终规则数据集中的故障数据集定义为D,并从最终规则数据集中的故障数据集D中划分出非目标项集I<sub>N</sub>和目标项集I<sub>T</sub>,k‑项集表示一个包含k个项的集合,定义L<sub>k</sub>为频繁k‑项集的集合,C<sub>k</sub>是候选k‑项集的集合,L为频繁项集的集合,定义min_sup表示最小支持度阈值,min_conf表示最小置信度,k‑项集出现频度不小于min_sup视为频繁k‑项集,表示某类因素项集和某类故障装备单元同时出现频数较高,若频繁项集中包含的目标项集I<sub>T</sub>子集出现频度与非目标项集I<sub>N</sub>子集出现频度的比值不小于最小置信度min_conf,则将该频繁项集视为强关联规则,表示在非目标项集I<sub>N</sub>子集类因素发生的情况下目标项集I<sub>T</sub>子集类故障装备及其单元出现的概率较高,为装备单元的可靠性影响因素;对最终规则数据集中的故障数据集D进行扫描,计算最终规则数据集中的故障数据集D中每个不同项的频度,得到频繁1‑项集的集合L<sub>1</sub>;步骤202:对频繁k‑项集的集合L<sub>k</sub>中的不同的两个频繁k‑项集I<sub>1</sub>和I<sub>2</sub>进行扫描,若二者仅有一项不相同,则将两个频繁k‑项集I<sub>1</sub>和I<sub>2</sub>进行连接,得到新的k+1‑项集c,若新的k+1‑项集c中所有项不同时包含目标项集I<sub>T</sub>和非目标项集I<sub>N</sub>中的项,说明生成新的k+1‑项集c只包含故障因素或只包含故障装备单元,无法建立因素与故障装备单元的联系,因此将新的k+1‑项集c删除,进入对频繁k‑项集的集合L<sub>k</sub>中下一对k‑项集的扫描,如果新的k+1‑项集c中所有项同时包含目标项集I<sub>T</sub>和非目标项集I<sub>N</sub>中的项,则提取新的k+1‑项集c中1‑项子集外的每个包含目标项的k‑项子集s与频繁k‑项集的集合L<sub>k</sub>中的k‑项集对比,若k‑项子集s不出现在频繁k‑项集的集合L<sub>k</sub>中,说明该类因素与该类装备单元故障出现频度不满足要求,因此将新的k+1‑项集c删除,进入对频繁k‑项集的集合L<sub>k</sub>中下一对k‑项集的扫描,若k‑项子集s不出现在频繁k‑项集的集合L<sub>k</sub>中,则将新的k+1‑项集c添加至候选k+1‑项集集合C<sub>k+1</sub>,并进入对频繁k‑项集的集合L<sub>k</sub>中下一对k‑项集的扫描,直到候选k+1‑项集集合C<sub>k+1</sub>生成完毕为止;步骤203:对最终规则数据集中的故障数据集D进行扫描,定义最终规则数据集中的故障数据集D的故障事务记录为t,若候选k+1‑项集集合C<sub>k+1</sub>中的候选k+1‑项集c为故障事务记录t的子集,则将新的k+1‑项集c的出现频数加一,重复该过程直到最终规则数据集中的故障数据集D扫描完毕为止;步骤204:判定C<sub>k+1</sub>中的候选k+1‑项集c出现频度是否不小于min_sup,如果是则说明候选k+1‑项集c故障因素和故障装备单元同时出现的频数较高,满足频繁k+1‑项集的情况,将满足条件的候选k+1‑项集c添加到L<sub>k+1</sub>;步骤205:重复步骤202‑步骤204,直到频繁k‑项集不再扩大为止,然后将所有频繁k‑项集的集合合并,得到频繁项集集合L;步骤206:对频繁项集集合L中的频繁项集进行判定,若当前频繁项集中包含的I<sub>T</sub>子集出现频度与I<sub>N</sub>子集出现频度的比值不小于最小置信度min_conf,则将该频繁项集视为强关联规则,其概率值为所计算的I<sub>T</sub>子集出现频度与I<sub>N</sub>子集出现频度的比值,重复该过程对每个频繁项集进行判定和规则生成操作,最终得到的全部关联规则为装备单元的所有可靠性影响因素,上述装备单元的所有可靠性影响因素作为装备可靠性评估的依据。
地址 430033 湖北省武汉市解放大道717号