一种环境监测的数据抽取和预测模型建立方法,申请号CN201410066745.8-传众专利搜索

发明名称	一种环境监测的数据抽取和预测模型建立方法
摘要	本发明公开一种环境监测的数据抽取和预测模型建立方法，包括环境监测数据抽取步骤以及环境预测模型建立步骤。数据抽取逻辑、调度计划可进行客户化定制，方便用户操作。建立了环境数据的标准统一规范，环境数据统一化。抽取过程中具有科学的数据有效性验证，提高了环境数据中心的数据有效性。通过环境监测数据的数据挖掘过程，是数据得到了充分利用。抽取后的数据建立了环境模型可为环保决策提供支持。
申请公布号	CN103823869A	申请公布日期	2014.05.28
申请号	CN201410066745.8	申请日期	2014.02.26
申请人	中科怡海高新技术发展江苏股份公司	发明人	陆波;马恩恩
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	无锡华源专利事务所(普通合伙) 32228	代理人	林弘毅;聂汉钦
主权项	1.一种环境监测的数据抽取和预测模型建立方法，包括环境监测数据抽取步骤以及环境预测模型建立步骤，其特征在于：（1）环境监测数据抽取包括如下步骤：（1-1）组建数据ETL系统，系统由环境数据中心服务器、ETL服务器、路由器、数据终端及网线组成；ETL服务器作为中间环节通过路由器及网线连接环境数据中心服务器及数据终端；ETL服务器上设置定时器自动判别数据终端数据变更情况，若数据终端数据发生变更且满足用户自定义的调度方案，即调度数据抽取；（1-2）ETL服务器根据用户配置的验证逻辑进行数据校验，环境监测数据被抽取进入ETL数据筛选单元，系统自动将这些数据与用户自定义的包含数据类型、数据格式、数据限值、数据单位、数据精度的数据规范库进行比对筛选合法数据、屏蔽非法或无效数据；并根据用户自定义的数据库规范进行包括数据类型统一化、数据格式统一化、数据单位统一化、数据精度统一化在内的数据处理以实现数据统一；（1-3）ETL服务器将经过筛选和转换处理过后的数据加载进环境数据中心服务器；（1-4）环境数据中心服务器的数据库分为四层，包括数据接口层、数据细节层、数据仓库层以及元数据层；（1-5）经过步骤（1-2）ETL服务器校验的数据首先进入的是数据接口层，该层数据并未按照环境数据中心服务器的数据规范进行存储，该层数据是与原有环境系统数据吻合的数据，作为临时存储；（1-6）ETL服务器调度确认逻辑遍历数据库log日志信息自动判别数据接口层的数据是否已生成，如果生成将启动数据转换过程，将数据接口层的数据按照环境数据中心服务器的数据格式要求进行数据转换加载到数据细节层，数据细节层的数据是满足环境数据中心服务器数据规范的数据；（1-7）ETL服务器调度确认逻辑遍历数据库log日志信息自动判别数据细节层的数据是否已生成，如果生成将启动通过统计、机器学习和模式识别方法进行搜索隐藏在海量环境监测数据中的信息的数据挖掘过程，生成数据报表及环境数据模型装载到数据仓库层；元数据层是定义数据的数据，用来描述ETL数据系统的所有数据；（2）环境预测模型建立包括如下步骤：（2-1）将环境数据中心服务器中准备好的数据生成txt文本表格；表格的列坐标为X1～Xn，代表各环境监测项；表格的行坐标为R1～Rn，代表环境监测项在不同时间的数值；行数和列数用户可自定义；（2-2）确定参考数列及比较数列，选定X0列为参考数列，Xi列为比较数列；（2-3）对参考数列和比较数列用min-max标准化方法做无量纲化处理，min-max标准化方法是对原始数据进行线性变换；设minA和maxA分别为属性A的最小值和最大值，将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x'，其公式为：新数据=（原数据-极小值）/（极大值-极小值）；（2-4）求参考数列与比较数列的关联系数ξ(Xi)；ξ(Xi)可由下列公式算出：其中ρ为分辨系数，一般在0～1之间，通常取0.5；最小差，记为Δmin；最大差，记为Δmax；各比较数列Xi曲线上的每一个点与参考数列X0曲线上的每一个点的绝对差值，记为Δoi(k)；则关联系数ξ(Xi)可简化如下列公式：<maths num="0001"><![CDATA[<math><mrow><msub><mi>ξ</mi><mrow><mn>0</mn><mi>i</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>Δ</mi><mrow><mo>(</mo><mi>min</mi><mo>)</mo></mrow><mo>+</mo><mi>ρΔ</mi><mrow><mo>(</mo><mi>max</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>Δ</mi><mrow><mn>0</mn><mi>i</mi></mrow></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>+</mo><mi>ρΔ</mi><mrow><mo>(</mo><mi>max</mi><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>（2-5）求关联度ri；关联度ri公式如下：<maths num="0002"><![CDATA[<math><mrow><msub><mi>r</mi><mi>i</mi></msub><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>ξ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></mrow></math>]]></maths>ri为比较数列Xi对参考数列X0的关联度，或称为序列关联度、平均关联度、线关联度；ri值越接近1，说明相关性越好；（2-6）选择出比较数列中与参考数列关联度最高的几组数列Xj；（2-7）以Xj为输入源，X0为输出源。在X0与Xj之间建立模型：O(Xj)=f(∑Xij×qp)-EO代表输出值，f代表函数，q代表阀值，p代表权值，E代表误差；（2-8）经过建立输入源与输出源的关系，通过回馈误差E不断修正阀值q与权值p，最终达到误差最小化确定模型。
地址	214024 江苏省无锡市南长区南湖大道501号创智园A栋