发明名称 一种地面气温数据质量控制方法
摘要 本发明公开了一种地面气温数据质量控制方法,将经过遗传算法(GA)优化后的随机森林算法用于气象观测站进行气象要素质量控制。该方法首先对一定范围内的地面气象观测数据进行采集,然后对采集的数据做基本质量控制后,再依据随机森林模型下变量重要性使用遗传算法寻找相关性较高的邻近站点,使用改进随机森林方法按时间和空间排序对数据进行训练,得到一个基于改进随机森林的质量控制模型,并利用测试集进行回归预测,最后与目标站实际观测数据进行对比,观察模型识别观测数据中错误数据的能力。该方法有效的利用了我国多年积累的宝贵气象数据资料,在质量控制方面比传统方法更加高效、准确度高、适应性强,提高了气象观测站气象数据的质量。
申请公布号 CN106503458A 申请公布日期 2017.03.15
申请号 CN201610949430.7 申请日期 2016.10.26
申请人 南京信息工程大学 发明人 叶小岭;杨星;熊雄;姚润进;沈云培;杨帅
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 江苏爱信律师事务所 32241 代理人 唐小红
主权项 一种地面气温数据质量控制方法,其特征在于,包括以下步骤:步骤1.采集采样时间T内的目标地面气象观测站温度数据X<sub>0</sub>(t),t=1,2,3,…,T,其中t为采样时间;步骤2.采集采样时间T内的邻近地面气象观测站温度数据X<sub>i</sub>(t),i=1,2,3,…,n,其中n为邻近站的个数;步骤3.对采集到的数据进行基本质量控制,得到新的数据集x<sub>0</sub>(t)和x<sub>i</sub>(t),将样本按时间序列以9:1的比例分为训练集和测试集;步骤4.使用随机森林方法对训练集数据进行建模,利用Bagging方法进行采样,利用袋外误差测试模型的泛化能力,假设袋外数据总数为a,用这a个数据作为输入,带入分类器得到分类结果,与正确的分类情况进行比较统计错误数据大小为b,则袋外误差为OOB<sub>error</sub>=b/a,随机对袋外数据所有样本特征加入噪声干扰,在此计算袋外误差得OOB<sub>error2</sub>,则某特征m1的重要性为<img file="FDA0001141575400000011.GIF" wi="581" he="103" />n为树个数,利用遗传算法寻找重要性较高的特征,即邻近站点,选择重要性较高的站点建立随机森林质量控制模型;步骤5.将测试集中的邻近站点数据作为样本集,利用步骤6建立的随机森林模型进行回归预测,得到目标站的预测值;步骤6.将预测值与实际观测值进行比较,通过均方根误差<img file="FDA0001141575400000012.GIF" wi="458" he="126" />和平均绝对误差<img file="FDA0001141575400000013.GIF" wi="378" he="103" />评价模型,其中y<sub>obs</sub>为目标站实际观测值,y<sub>est</sub>是模型预测值。
地址 210044 江苏省南京市宁六路219号