发明名称 一种自动去除时序数据野值点的方法
摘要 本发明提供了一种对时序数据野值点进行自动去除的方法。本发明所述野值识别方法可以通用多种数据,即对于不同形态的参数,可以使用同一野值识别规则,降低专家知识等先验条件的影响。该方法包括识参数配置模块,识别数据集的载入、数据格式转换及清洗模块,基于方差的密度聚类野值点识别模块,和野值点识别结果的解释模块及数据分析结果图形视图组件、用户交互组件等必须组件。该方法利用基于方差的密度聚类,结合时序数据的固有特征,进行野值点自动识别。从而帮助数据分析人员进行数据清洗,减少野值数据对数据分析精度,判定结果的影响,避免了数据分析结果的失效性。
申请公布号 CN102509001A 申请公布日期 2012.06.20
申请号 CN201110317014.2 申请日期 2011.10.18
申请人 西安交通大学 发明人 鲍军鹏;赵静
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 西安通大专利代理有限责任公司 61200 代理人 徐文权
主权项 一种自动去除时序数据野值点的方法,其特征在于:包括参数配置模块,识别数据集的载入、数据格式转换及清洗模块,基于方差的密度聚类野值点识别模块,和野值点识别结果的解释模块;参数配置模块,完成包括用户设置训练数据集、N倍参数、时间窗口、收敛阈值的模型参数的xml文档的创建、载入和解析;数据格式转换模块将文本数据或流数据转换为方法定义的点结构,同时完成对缺失数据的补全和数据采样;基于方差的密度聚类野值点识别模块是方法的核心部分,对转换后的点数据进行多次野值识别,计算野值点识别收敛程度,终止野值点识别;对野值点识别结果的解释部分完成对点数据转换成原始数据格式,保存识别结果标签,图形化显示野值识别结果。
地址 710049 陕西省西安市咸宁西路28号