发明名称 |
基于Hbase数据库的倒排索引混合压缩及解压方法 |
摘要 |
本发明公开了一种基于Hbase数据库的倒排索引混合压缩方法,包括以下步骤:对Hbase数据库进行处理得到内容包括键和值的Hbase数据库倒排索引数据表;对键部分采用键既字典压缩法进行压缩;对值部分采用可变字节码压缩法进行压缩;将压缩后的内容写入文件。本发明还公开了一种采用上述压缩方法压缩后的压缩文件键部分的解压方法,对每一条压缩数据的长度进行判断,根据以下两种情况分别处理并获得解压数据:1、长度小于或等于13,2、长度大于或等于25,否则解压失败。本发明采用分类混合压缩方法及分类解压法,在尽量保证高解压率的前提下提高压缩比,实现文件读取和数据解压的统一考量,在整体上提高倒排索引的查询效率并节省存储空间。 |
申请公布号 |
CN102708187A |
申请公布日期 |
2012.10.03 |
申请号 |
CN201210147725.4 |
申请日期 |
2012.05.14 |
申请人 |
成都信息工程学院 |
发明人 |
安俊秀;程芃森 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京中海智圣知识产权代理有限公司 11282 |
代理人 |
巢瑞钰 |
主权项 |
一种基于Hbase数据库的倒排索引混合压缩方法,其特征在于:包括以下步骤:(1)对所述Hbase数据库进行倒排索引处理得到Hbase数据库倒排索引数据表,所述Hbase数据库倒排索引数据表的内容包括键和值;(2)对所述Hbase数据库倒排索引数据表中的键部分采用键既字典压缩法进行压缩;(3)对所述Hbase数据库倒排索引数据表中的值部分采用可变字节码压缩法进行压缩;(4)将压缩后的内容写入文件。 |
地址 |
610000 四川省成都市西南航空港经济开发区学府路一段24号 |