发明名称 一种基于工业过程的大数据压缩方法
摘要 本发明提供一种基于工业过程的大数据压缩方法,涉及工业大数据分析技术领域。本发明通过对采集的生产数据按数据块和采集数据项进行压缩,根据采集数据项的类别,对浮点型、布尔型和字符型的采集数据分别进行处理,判定浮点型数值波动范围和比较布尔型、字符型相邻数据的变化来决定需要压缩的保存的数据。本发明既能有效改善工业过程中因时间的增加后采集数据项的数值发生偏移导致压缩结果偏差过大的问题,又能减少压缩后的采集数据项所占空间的大小,提高压缩效率,使工业数据库系统快速、有效地管理数据。
申请公布号 CN106372181A 申请公布日期 2017.02.01
申请号 CN201610785231.7 申请日期 2016.08.31
申请人 东北大学 发明人 徐泉;刘文庆;张鹏;冉振莉;王良勇;吴志伟;许美蓉;崔东亮
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 沈阳东大知识产权代理有限公司 21109 代理人 梁焱
主权项 一种基于工业过程的大数据压缩方法,其特征在于,包括下述步骤:步骤1、定义工业过程采集数据的数据标识项,对采集的工业过程生产数据按采集数据项进行编号,作为数据标识项;步骤2、对采集数据项进行数据压缩处理,压缩过程如下:步骤2.1、设定压缩数据块的大小,将采集的数据分为若干个数据块;步骤2.2、对步骤2.1中数据块进行编号,形成数据组&lt;编号,数据块内容&gt;;步骤2.3、将步骤2.2中待压缩数据块中的采样数据项的采样时刻与该数据块中采样数据项初始采样时刻的偏差作为时间偏移量,即该时间偏移量为采样周期的整数倍,对读取的数据块中的采样数据项按采集数据项的编号依次进行压缩,具体步骤为:步骤2.3.1、对该数据块中的待压缩的采集数据项的数据进行压缩,判断该采集数据项的数据类型,若是数值型生产数据,则执行步骤2.3.2,对数值型生产数据进行压缩处理,若是布尔型生产数据,则执行步骤2.3.3,对布尔型生产数据进行压缩处理;步骤2.3.2、对数值型生产数据进行压缩处理,具体方法如下:步骤2.3.2.1、设定该数值型生产数据的数值波动范围;步骤2.3.2.2、根据数据块中的该数值型采集数据项第m<sub>1</sub>(m<sub>1</sub>≥1)个采样时刻的数值,判断该采集数据项第m<sub>1</sub>+1个采样时刻的数值是否超出所设定的波动范围,若是,则执行步骤2.3.2.3;若否,则执行步骤2.3.2.4;步骤2.3.2.3、记录对应采样时刻的时间偏移量<img file="FDA0001105594810000011.GIF" wi="59" he="61" />和该采样时刻的数值<img file="FDA0001105594810000012.GIF" wi="99" he="53" />写入数值型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为<img file="FDA0001105594810000013.GIF" wi="360" he="71" />执行步骤2.3.2.4;步骤2.3.2.4、判断m<sub>1</sub>是否等于n<sub>1</sub>,n<sub>1</sub>表示该数值型采集数据项的所有采样时刻的个数,若不等于,则m<sub>1</sub>加1,返回步骤2.3.2.2;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量<img file="FDA0001105594810000014.GIF" wi="50" he="61" />和对应的数值<img file="FDA0001105594810000015.GIF" wi="59" he="55" />写入压缩数据对{T[],V[]}中,为<img file="FDA0001105594810000016.GIF" wi="342" he="63" />再执行步骤2.3.5,若不为空,则执行步骤2.3.5;步骤2.3.3、对布尔型生产数据进行压缩处理,具体方法如下:步骤2.3.3.1、根据数据块中的该布尔型采集数据项第m<sub>2</sub>(m<sub>2</sub>≥1)个采样时刻的数值,判断该采集数据项第m<sub>2</sub>+1个采样时刻的数值是否发生改变,若是,则执行步骤2.3.3.2;若否,则执行步骤2.3.3.3;步骤2.3.3.2、记录对应采样时刻的时间偏移量<img file="FDA0001105594810000017.GIF" wi="64" he="64" />和该采样时刻对应的数值<img file="FDA0001105594810000018.GIF" wi="99" he="55" />写入该布尔型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为<img file="FDA0001105594810000021.GIF" wi="366" he="63" />执行步骤2.3.3.3;步骤2.3.3.3、判断m<sub>2</sub>是否等于n<sub>2</sub>,n<sub>2</sub>表示该布尔型采集数据项的所有采样时刻的个数,若不等于,则将m<sub>2</sub>加1,返回步骤2.3.3.1;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量<img file="FDA0001105594810000022.GIF" wi="59" he="63" />和对应的数值<img file="FDA0001105594810000023.GIF" wi="61" he="55" />写入压缩数据对{T[],V[]}中,为<img file="FDA0001105594810000024.GIF" wi="351" he="63" />再执行步骤2.3.5;步骤2.3.4、对字符型生产数据进行压缩处理,工业过程中字符型数据只有若干个取值,首先对该字符型数据能取得的状态进行编码,然后对该采集数据项进行压缩,具体方法如下:步骤2.3.4.1、根据数据块中的该字符型采集数据项第m<sub>3</sub>(m<sub>3</sub>≥1)个采样时刻的数值,判断该采集数据项第m<sub>3</sub>+1个采样时刻的数值是否发生改变,若是,则执行步骤2.3.4.2;若否,则执行步骤2.3.4.3;步骤2.3.4.2、记录对应采样时刻的时间偏移量<img file="FDA0001105594810000025.GIF" wi="66" he="62" />和该采样时刻对应的数值<img file="FDA0001105594810000026.GIF" wi="98" he="54" />写入该字符型采集数据项对应的T,V二元组形式的压缩数据对{T[],V[]}中,为<img file="FDA0001105594810000027.GIF" wi="366" he="63" />执行步骤2.3.4.3;步骤2.3.4.3、判断m<sub>3</sub>是否等于n<sub>3</sub>,n<sub>3</sub>表示该字符型采集数据项的所有采样时刻的个数,若不等于,则将m<sub>3</sub>加1,返回步骤2.3.4.1;若等于,则判断压缩数据对{T[],V[]}中是否为空,若为空,则将最后一个采样时刻的时间偏移量<img file="FDA0001105594810000028.GIF" wi="58" he="62" />和对应的数值<img file="FDA0001105594810000029.GIF" wi="65" he="53" />写入压缩数据对{T[],V[]}中,为<img file="FDA00011055948100000210.GIF" wi="350" he="70" />再执行步骤2.3.5;步骤2.3.5、判断是否该数据块的所有数据采集项完成压缩,若是,则执行步骤3;若否,则采集数据项编号后移一位,对该数据块的下一个采集数据项的数据进行压缩,执行步骤2.3.1;步骤3、判断是否步骤2.2中所有数据块都完成压缩,若是,则步骤结束,若否,则返回执行步骤2.3,对下一个新的数据块进行压缩。
地址 110819 辽宁省沈阳市和平区文化路3号巷11号