发明名称 |
用于大规模数据存储的高效的基于列的数据编码 |
摘要 |
本发明涉及基于列的数据编码,其中要压缩的原始数据按照列来组织,然后,作为数据大小的第一层和第二层缩减,向按列组织的数据应用字典编码和/或值编码,来创建对应于各列的整数序列。接着,混合贪婪行程长度编码和位打包压缩算法根据位节省分析来进一步压缩数据。混合数据缩减技术与基于列的组织相呼应的协同作用,加上归功于紧凑数据的表示的扫描和查询效率,以常规系统的一小部分成本得到了显著改进的数据压缩。 |
申请公布号 |
CN102112962A |
申请公布日期 |
2011.06.29 |
申请号 |
CN200980130984.2 |
申请日期 |
2009.07.31 |
申请人 |
微软公司 |
发明人 |
A·耐茨;C·佩特克勒斯克;I·B·克里瓦特 |
分类号 |
G06F7/76(2006.01)I;G06F7/78(2006.01)I |
主分类号 |
G06F7/76(2006.01)I |
代理机构 |
上海专利商标事务所有限公司 31100 |
代理人 |
顾嘉运;钱静芳 |
主权项 |
一种用于编码数据的方法,包括:根据对应于所述数据的不同数据字段的一组基于列的值序列来组织210所述数据;根据至少一个编码算法将所述一组基于列的值序列变换220成一组基于列的整数值序列;以及根据至少一个压缩算法压缩230所述一组基于列的整数序列。 |
地址 |
美国华盛顿州 |