主权项 |
一种基于海量数据挖掘的设备状态预测方法,其特征在于:包括阶段一:学习算法;阶段二:预测算法;所述阶段一:学习算法包括步骤如下:反映设备历史运行状态的数据样本作为训练数据集D=(o<sub>1</sub>,o<sub>2</sub>,…,o<sub>m</sub>),聚类结果的类集合为C,其中,<img file="FDA0001038055810000011.GIF" wi="283" he="49" />o<sub>i</sub>=(o<sub>i1</sub>,…,o<sub>ik</sub>,…o<sub>in</sub>),n≥1,1≤k≤n,v<sub>ik</sub>为数据集D中向量o<sub>i</sub>的第k维参数的值,n为每个数据向量的维度;步骤1,初始化:C=φ,读入第一个训练数据向量并对其标准化,记录结果为o<sub>1</sub>,生成初始聚类C<sub>1</sub>,并记录聚类上限和聚类下限,C={C<sub>1</sub>};步骤2,处理新数据向量:读入一个新的训练数据向量并对其标准化,记录结果为o<sub>2</sub>,如果<img file="FDA0001038055810000012.GIF" wi="198" he="63" />使得distance(o<sub>i</sub>,C<sub>j</sub>)=0,那么转至步骤3,否则转至步骤4;步骤3,o<sub>i</sub>并入C<sub>j</sub>:C<sub>j</sub>=C<sub>j</sub>∪o<sub>i</sub>,同时更新C<sub>j</sub>的参数,现有的类总个数不变;步骤4,o<sub>i</sub>自成一类:由C<sub>n+1</sub>={o<sub>i</sub>},C=C∪C<sub>n+1</sub>其中n为聚类结果集中聚类的个数;步骤5:所有历史训练数据向量都已经处理完,阶段一终止;否则,返回步骤2;阶段二:预测算法包括如下步骤:步骤6,初始化:i=0;步骤7,计算距离:计算向量o与聚类结果集C={C<sub>1</sub>,C<sub>2</sub>,…,C<sub>m</sub>}中聚类的距离,若d<sub>i</sub>=0,转至步骤9;若i=m,转至步骤8;否则,令i=i+1,转至步骤7;步骤8,寻找最近距离:从距离集合d={d<sub>1</sub>,d<sub>2</sub>,…,d<sub>m</sub>}中找到一个d<sub>i</sub>,使得d<sub>i</sub>为集合d中的最小值;步骤9,确定相似模型:根据d<sub>i</sub>确定聚类模型在聚类结果集中的序号为i,即相似的聚类模型为C<sub>i</sub>;步骤10,计算预测向量:根据聚类模型C<sub>i</sub>得到向量o的预测向量o'。 |