发明名称 一种适用于宽字符集文档的压缩方法
摘要 本发明提供一种适用于宽字符集文档的压缩方法,主要是先对文档的中、英文字符分别进行编码,忽略英文字符中重复的高字元0x00,且利用自订规则,对中文字符重新进行编码,并在每段英文之前及每段中文之前,分别加入不会与文档数据冲突的额外标记,用以区分中、英文字符,以便在后续压缩程序中,依其低字元在前、高字元在后的顺序及出现概率,据以分别进行压缩,本发明的压缩方法可有效减少中、英文字符在HUFFMAN树图中的节点数量,从而大幅提升文档的压缩率。
申请公布号 CN1279537A 申请公布日期 2001.01.10
申请号 CN99110177.4 申请日期 1999.07.02
申请人 英业达集团(西安)电子技术有限公司 发明人 陈淮琰;郑建锋
分类号 H03M7/30 主分类号 H03M7/30
代理机构 上海专利商标事务所 代理人 陈亮
主权项 1、一种适用于宽字符集文档的压缩方法,针对宽字符集文档进行压缩,该方法包括下列步骤:(1)首先,统计出宽离符集文档中不同字符的个数;(2)其次,藉所统计出不同中文字符的个数及各该中文字符的出现顺序,依一自订的规则,建立中文字符的码值转换表,对这些中文字符进行重新编码,以降低其HUFFMAN树图中的节点数量;再利用LZSS运算法在处理重复字元的编码上较佳的处理能力,对英文字符进行重新编码,令在每段英文之前及每段中文之前,分别加入一不会与文档数据冲突的额外标记,用以区分中、英文字符,以便在后续对这些英文字符进行压缩时,不压缩其高字元0x00部份;(3)然后,再依各字符出现的次数及低字元在前、高字元在后的顺序,分别建立二个HUFFMAN树图;(4)最后,根据该HUFFMAN树图分别建立中、英文字符的编码对应表,以使文档的中、英文字符依该编码对应表完成编码及压缩程序。
地址 710000陕西省西安市高新技术产业开发区西区F-2B号楼2楼