发明名称 一种面向智能电网的缺失数据填充方法
摘要 本发明公开一种面向智能电网的缺失数据填充方法,首先将源系统数据集中的部分不完整数据打回源系统,由源系统重新生成数据集<i>D</i>;然后将重新生成的数据集<i>D</i>分成两部分,即完整数据子集<i>D</i><i><sub>c</sub></i>和缺失数据子集<i>D</i><i><sub>i</sub></i><i>,</i>并对完全数据集<i>D</i>进行聚类;最后通过聚类结果对缺失数据子集<i>D</i><i><sub>i</sub></i>进行填充,得到填充结果<i>D<sub>i</sub></i>’。本发明能够在存在噪声和离群点的情况下,有效聚类空间数据,将其应用于缺失值填充中,提升了数据填充的准确性,为电力公司实现对业务系统数据的智能管理奠定了基础。
申请公布号 CN104133866A 申请公布日期 2014.11.05
申请号 CN201410344391.9 申请日期 2014.07.18
申请人 国家电网公司;江苏省电力公司;江苏电力信息技术有限公司;江苏省电力公司信息通信分公司 发明人 祁建;周红林;王青国
分类号 G06F17/30(2006.01)I;G06Q50/06(2012.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京汇盛专利商标事务所(普通合伙) 32238 代理人 陈扬
主权项 一种面向智能电网的缺失数据填充方法,其特征在于:首先将源系统数据集中的部分不完整数据打回源系统,由源系统重新生成数据集D,D由完整数据子集D<sub>c</sub>和缺失数据子集D<sub>i</sub>构成;然后对D进行聚类,形成N个紧密耦合的簇;最后根据聚类结果对缺失数据子集D<sub>i</sub>进行填充,得到填充结果D<sub>i</sub>’,具体步骤如下:1)将源系统数据集中的部分不完整数据打回让源系统重新生成,这些数据包含有较多缺失值的记录和较少完整值的属性;通常情况下如果一条记录的缺失属性值占记录全部属性值的一半及以上需要打回该记录;如果某个属性的完整属性值占全部记录的比例低于50%,也需要打回该属性;2)对重新生成的数据集D将重新生成的数据集分成完整数据子集D<sub>c</sub>和缺失数据子集D<sub>i</sub>,并对D进行K‑Means聚类,从而产生紧密耦合的K个小簇,这些小簇能够将噪声和离群点与其他点有效地分离开来,然后通过动态合并的方式不断地合并这些小簇,在D上产生N个紧密耦合的簇;3)根据聚类后的结果对缺失数据子集进行填充,在填充过程中,如果簇中含有完整属性的数据,利用该簇相应的属性均值来填充该记录的缺失值;如果簇中没有完整属性的数据,则根据完整数据子集D<sub>c</sub>的平均值和方差,基于正态分布数据分发器来对这些缺失值进行填充。
地址 100031 北京市西城区西长安街86号