发明名称 一种工业数据增补方法
摘要 本发明属于数据挖掘技术领域,本发明结合了期望最大化算法和灰色聚类分析的优点,提供一种结合了期望最大化方法和聚类分析方法的数据增补技术,在反复估算的基础上又保证数据的关联性,完整地将数据增补到缺失序列中,使得缺失数据的计算效率增加,收敛的周期缩短,并且使其估算精度提高。
申请公布号 CN103020079A 申请公布日期 2013.04.03
申请号 CN201110286150.X 申请日期 2011.09.24
申请人 国家电网公司;江苏瑞中数据股份有限公司 发明人 吉琨
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 1.一种工业数据增补方法,其特征在于包括如下步骤:步骤A:确定参照序列、缺失序列;记序列<img file="201110286150X100001DEST_PATH_IMAGE001.GIF" wi="181" he="25" />为完整的参照序列,记序列<img file="503952DEST_PATH_IMAGE002.GIF" wi="270" he="28" />为缺失序列,其中<img file="201110286150X100001DEST_PATH_IMAGE003.GIF" wi="102" he="22" />;步骤B:初始化序列;调整完整参照序列的元素个数,将其中与缺失序列中相对缺失的数据删除,形成临时的参照序列<img file="805752DEST_PATH_IMAGE004.GIF" wi="184" he="26" />,记为<img file="201110286150X100001DEST_PATH_IMAGE005.GIF" wi="24" he="26" />;序列<img file="870660DEST_PATH_IMAGE006.GIF" wi="390" he="26" />称为序列<img file="201110286150X100001DEST_PATH_IMAGE007.GIF" wi="21" he="26" />的始点零化像,记为<img file="207094DEST_PATH_IMAGE008.GIF" wi="161" he="26" />;步骤C:分析缺失序列与参照序列的关系,计算灰色关联度,划分聚类;首先根据公式计算出序列的面积<img file="201110286150X100001DEST_PATH_IMAGE009.GIF" wi="28" he="26" />,临时参照序列的面积<img file="433676DEST_PATH_IMAGE010.GIF" wi="26" he="26" />,缺失序列的面积<img file="201110286150X100001DEST_PATH_IMAGE011.GIF" wi="28" he="28" />;计算序列1与序列i之间的灰色关联度,记<img file="675302DEST_PATH_IMAGE012.GIF" wi="22" he="26" />为序列1与序列i之间的相似程度, 计算所有参照序列<img file="DEST_PATH_IMAGE013.GIF" wi="20" he="26" />之间以及<img file="26124DEST_PATH_IMAGE013.GIF" wi="20" he="26" />与缺失序列<img file="466333DEST_PATH_IMAGE014.GIF" wi="20" he="28" />之间的相似程度,将所有的参照序列组合成上三角矩阵;根据临界值r对所有的<img file="DEST_PATH_IMAGE015.GIF" wi="20" he="26" />进行聚类分析,将所有的序列按照聚类划分;进行灰色关联分析,确定与缺失序列相似程度较高的不完整序列集合并恢复为完整的序列,做均值化处理,得出唯一的均值完整参照序列<img file="67078DEST_PATH_IMAGE016.GIF" wi="36" he="25" />,记录完整序列集合中对应缺失数据位置的最大值max_value和最小值min_value;步骤D:计算缺失数据;根据EM算法利用缺失数据的序列<img file="343470DEST_PATH_IMAGE014.GIF" wi="20" he="28" />计算出要被估计的参数<img file="DEST_PATH_IMAGE017.GIF" wi="14" he="20" />;取最大值max_value和最小值min_value之间为缺失数据,将最小值min_value增补到缺失数据的序列中形成临时的完整序列,计算完整数据的对数似然函数的期望值;极大化对数似然函数以确定参数的值,经反复的迭代可以得出多个介于max_value与min_value之间的缺失数据初步估计值;将缺失数据初步估计值逐一代入缺失数据的序列中,与均值完整参照序列<img file="750180DEST_PATH_IMAGE018.GIF" wi="42" he="25" />进行关联度分析得到<img file="DEST_PATH_IMAGE019.GIF" wi="20" he="25" />,取<img file="248158DEST_PATH_IMAGE019.GIF" wi="20" he="25" />的极大值<img file="567275DEST_PATH_IMAGE020.GIF" wi="30" he="25" />对应的数据作为最终的增补数据。
地址 100031 北京市西城区西长安街86号