发明名称 一种测点数据的补缺系统及补缺方法
摘要 本发明公开了一种测点数据的补缺系统及补缺方法,包括业务指标数据探测系统以及与业务指标数据探测模块相连接的数据填充系统,所述业务指标数据探测系统包括源业务指标数据库模块、与源业务指标数据库模块相连的数据访问模块、连接于数据访问模块的业务逻辑模块、连接于业务逻辑模块的数据显示模块;所述数据填充系统中设有线性回归填充系统、均值填充系统和人工填充系统。本发明大大提高业务数据的正确性,提高计算统计数据群的精度,使统计分析结果更为可靠,为企业投资评价、效益分析等工作提供更为有利的数据支持。
申请公布号 CN103440283B 申请公布日期 2016.08.17
申请号 CN201310351761.7 申请日期 2013.08.13
申请人 江苏华大天益电力科技有限公司 发明人 吴克河;朱亚运;党芳芳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 王云
主权项 一种测点数据的补缺系统的补缺方法,其特征在于:补缺系统包括业务指标数据探测系统以及与业务指标数据探测系统相连接的数据填充系统,所述业务指标数据探测系统包括源业务指标数据库模块、与源业务指标数据库模块相连的数据访问模块、连接于数据访问模块的业务逻辑模块、连接于业务逻辑模块的数据显示模块;所述数据填充系统中设有线性回归填充系统、均值填充系统和人工填充系统;补缺方法包括以下步骤:(1)使用数据访问模块遍历综合数据系统,查找并记录存在的业务指标数据的缺失项,根据缺失项查找业务指标定义表,确定各指标间的横向关联范围;(2)在数据显示模块中显示数据访问模块所记录的缺失项,并提供针对缺失项的三种数据填充系统的接口;(3)用户根据需求,从线性回归填充系统、均值填充系统和人工填充系统中选择一种系统对业务指标数据的缺失项进行填充处理,业务逻辑模块接收到用户的指令,开始执行相对应的填充算法,并将计算出的缺失项填充值返回给数据显示模块;其中,所述业务逻模块执行包括以下四种的填充算法:a)线性回归填充算法:该算法通过历史数据或横向指标数据对指标数据缺失值进行预测,需通过最小二乘法建立以下线性回归模型来计算填充值:<maths num="0001"><math><![CDATA[<mrow><mi>Y</mi><mo>=</mo><mi>a</mi><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><msub><mi>b</mi><mi>i</mi></msub><msub><mi>x</mi><mi>i</mi></msub><mo>+</mo><mi>e</mi></mrow>]]></math><img file="FDA0000965756380000011.GIF" wi="502" he="151" /></maths>式中,k为自变量的个数,即用来进行填充值估算的样本数据群的容量,Y为所求的填充值,x<sub>i</sub>为样本数据群中每一个样本的数值,e为随机参数;相关系数a和b<sub>i</sub>可采用如下公式进行估算:<img file="FDA0000965756380000012.GIF" wi="702" he="364" />其中,x<sub>j</sub>为样本数据群中每一个样本的数值,<img file="FDA0000965756380000013.GIF" wi="30" he="47" />为各x<sub>j</sub>的均值;y<sub>j</sub>为需要填充的指标的历史数据值,<img file="FDA0000965756380000014.GIF" wi="29" he="54" />为各y<sub>j</sub>的均值;b)横向均值填充算法:将在业务指标数据探测系统查找到的数据的缺失项标识为INDEX_ID,使用INDEX_ID访问指标分类表,取得其父分类指标的标识记为PARENTID,通过数据访问模块取得所有父指标ID为PARENTID的指标,并按照以下公式进行计算:<maths num="0002"><math><![CDATA[<mrow><mi>v</mi><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>v</mi><mi>i</mi></msub></mrow>]]></math><img file="FDA0000965756380000021.GIF" wi="295" he="167" /></maths>式中,v<sub>i</sub>为各父指标ID为PARENTID的指标的数值,n为相应的指标个数,v即为数据缺失项的横向均值填充值;c)纵向均值填充算法:该算法采取的统计时间为12个月,将在业务指标数据探测系统查找到的数据的缺失项标识为INDEX_ID,再取得缺失项所在记录的时间,记为DATATIME,使用该标识再次访问指标数据表,取DATATIME所标识时间点的前12个月的指标数据记录,然后则按照以下公式进行计算:<maths num="0003"><math><![CDATA[<mrow><mi>v</mi><mo>=</mo><mfrac><mn>1</mn><mn>12</mn></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mn>12</mn></munderover><msub><mi>v</mi><mi>i</mi></msub></mrow>]]></math><img file="FDA0000965756380000022.GIF" wi="460" he="206" /></maths>式中,v即为数据缺失项的纵向均值填充值;d)人工填充算法:由用户在数据显示模块的填充界面上对数据缺失项进行添加;(4)此时数据显示模块中出现是否保存该填充值的选项,若用户选择保存,则该填充值通过业务逻辑模块和数据访问模块保存至源业务指标数据库模块中。
地址 212000 江苏省镇江市句容经济开发区石狮路富达创业园02幢315室