发明名称 一种XML数据压缩和解压缩方法及系统
摘要 本发明提供了一种XML数据压缩方法。该方法包括:对XMLschema进行优化,以去除冗余结构信息和节点间的间接使用,并存储优化后的schema;利用优化后的schema提取以所述schema为规范的XML数据的结构信息部分;按照优化后的schema节点将所述XML数据的数据部分分成多个数据块;和分别使用通用压缩方法对结构信息部分和数据块进行压缩,并将压缩结果输出到文件。相应地,提供了一种解压缩方法及其压缩系统和解压缩系统。本发明通过简化XMLschema,获得了最小化的结构信息,改进了数据的分组存储策略,从而提高了压缩率。此外,还对微型数据块的存储进行了优化,从而进一步提高了压缩率。
申请公布号 CN102214170B 申请公布日期 2013.05.15
申请号 CN201010141585.0 申请日期 2010.04.06
申请人 北京大学;北大方正集团有限公司;北京北大方正技术研究院有限公司 发明人 仇睿恒;胡薇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京天昊联合知识产权代理有限公司 11112 代理人 陈源;罗建民
主权项 一种XML数据压缩方法,包括以下步骤:对XML schema进行优化,以去除冗余结构信息和节点间的间接使用,并存储优化后的schema;利用优化后的schema提取以所述schema为规范的XML数据的结构信息部分;按照优化后的schema节点将所述XML数据的数据部分分成多个数据块;分别使用通用压缩方法对结构信息部分和数据块进行压缩,并将压缩结果输出到文件;其中,所述对XML schema进行优化的步骤包括以下步骤:对于以引用、扩展和限定方式连接到另一个节点的节点,直接将该节点连接到所述另一个节点;对于其所有子节点都是可选节点的序列指示器,将该序列指示器变为可选;对于没有子节点的序列指示器,删除该序列指示器;对于只有一个子节点而且这个子节点也是序列指示器的序列指示器,将作为其子节点的序列指示器和该序列指示器进行合并;和为经过上述步骤优化后的每个schema节点分配一个编号。
地址 100871 北京市海淀区颐和园路5号