发明名称 一种应用于海量不完整数据的压缩优化方法
摘要 本发明涉及一种应用于海量不完整数据的压缩优化方法,包括硬优化方法、软优化方法;该方法通过将海量不完整数据的压缩与传统粗糙理论相集合,并对其中的方法进行改进,利用其对不完整数据压缩过程中的属性进行属性重要性以及属性综合权重进行计算。同时在属性综合权重的基础上设计一种新的不完整数据集中属性值字段的编码方式。该方法提高海量不完整数据的压缩效率,减少海量不完整数据的存储空间,能够在减少冗余的前提下实现海量不完整数据的高效率压缩。它适应于海量不完整数据的减冗余压缩。
申请公布号 CN106598492A 申请公布日期 2017.04.26
申请号 CN201611081153.9 申请日期 2016.11.30
申请人 辽宁大学 发明人 王妍;孙凌峰;李玉诺;王俊陆;宋宝燕
分类号 G06F3/06(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F3/06(2006.01)I
代理机构 沈阳杰克知识产权代理有限公司 21207 代理人 罗莹
主权项 一种应用于海量不完整数据的压缩优化方法,其特征在于:包括硬优化方法(1)、软优化方法(2);所述的硬优化方法(1)实现步骤如下:(1.1):确定属性字段的编码方式:在一个元组中,当属性值字段没有发生缺失时,根据确定性查询条件,利用位编码形式对属性值字段进行编码,:利用“0”,“1”对元组中确定性查询条件对应的属性字段进行编码;当属性值发生缺失时候,利用“*”对属性值缺失字段进行编码;(1.2):确定Def_query值:不管当前元组中是否存在属性值缺失字段,根据(1.1)中的编码方式,计算当前元组t所满足的确定性查询条件所对应的Def_Query值;(1.3):将元组t写入为该Def_Query值所准备的待压缩缓存块Block<sub>Def_Query</sub>中,设定其序号为Block_Id<sub>Def_Query</sub>;将元组t的不确定性查询条件的值Undef_Vals以及Def_Query值和缓存块号Block_Id<sub>Def_Query</sub>插入到数据库索引表中;(1.4):如果Block_Id<sub>Def_Query</sub>所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩;将得到的Block_Id<sub>Def_Query</sub>以及压缩得到的地址Address<sub>Def_Query</sub>写入压缩地址表中,得到使用硬优化算法后的压缩数据和索引文件;所述的Def_Query代表用户使用的确定性查询条件,Block代表压缩缓存块,Block_Id代表数据元组所在的缓存块的序号,Undef_Vals代表不确定性查询条件所对应的属性值,Address代表缓存块压缩后的压缩文件地址;所述的软优化方法(2)实现步骤如下:(2.1):确定海量不完整数据集中确定性查询条件所对应属性的属性主观权重;通过计算用户的频繁查询条件的使用概率,计算得到不完整数据集中相关属性的主观权重;(2.2):计算不完整数据集中属性的客观权重,步骤具体为:①查询结果数值化:将查询结果集中的非数值属性列删除,使结果集中都是数值型数据;②结果集划分:将数值化后的结果集进行划分,将其划分为完备结果集和不完备结果集;此时数据集中不再存在缺失数据;③条件属性集合和决策属性集合确定:当一个结果集不存在明显的决策属性集合时,将结果集中的全部属性集合既作为条件属性集合又作为决策属性集合;④属性客观权重计算:通过利用粗糙集中相关理论求得结果集中各个属性的属性重要性,同时计算各个属性对应的属性客观权重;(2.3):属性综合权重计算:通过利用用户偏好系数,对各个属性进行属性综合权重的计算,得到属性的综合权重;(2.4):结合属性综合权重以及海量不完整数据硬优化方法中的属性字段编码方式,重新设计元组中属性字段的编码方式,对元组中的确定性查询条件所对应的属性字段进行编码;①设置属性综合权重的权重阈值,比较Def_query对应的属性集合中各个属性的综合权重与权重阈值y的大小关系;②对于一个元组t,如果其中的属性综合权重大于y,那么当它发生属性值缺失时候,该属性需要被编码为“0”和“1”;如果属性值未发生缺失,那么该属性需要根据确定性查询条件,编码为“0”或者“1”;③如果其中的属性综合权重小于y,那么当它发生属性值缺失时候,该属性需要被编码为“*”;如果属性值未发生缺失,那么该属性需要根据确定性查询条件,编码为“0”或者“1”;(2.5):计算当前元组t所满足的确定性查询条件的Def_Query值;将元组写入为该Def_Query值所准备的待压缩缓存块Block<sub>Def_Query</sub>中,设定其序号为Block_Id<sub>Def_Query</sub>;(2.6):将元组t的不确定性查询条件的值Undef_Vals以及Def_query值和Block_Id<sub>Def_Query</sub>插入到数据库索引表中;(2.7):如果该Block_Id<sub>Def_Query</sub>所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩;将得到的Block_Id<sub>Def_Query</sub>以及压缩得到的地址Address<sub>Def_Query</sub>写入地址表中,得到海量不完整数据软优化算法后的压缩数据和索引文件。
地址 110000 辽宁省沈阳市沈北新区道义南大街58号