发明名称 | 一种适用于宽字符集文档的压缩方法 | ||
摘要 | 本发明提供一种适用于宽字符集文档的压缩方法,主要是先对文档的中、英文字符分别进行编码,忽略英文字符中重复的高字元0x00,且利用自订规则,对中文字符重新进行编码,并在每段英文之前及每段中文之前,分别加入不会与文档数据冲突的额外标记,用以区分中、英文字符,以便在后续压缩程序中,依其低字元在前、高字元在后的顺序及出现概率,据以分别进行压缩,本发明的压缩方法可有效减少中、英文字符在HUFFMAN树图中的节点数量,从而大幅提升文档的压缩率。 | ||
申请公布号 | CN1279537A | 申请公布日期 | 2001.01.10 |
申请号 | CN99110177.4 | 申请日期 | 1999.07.02 |
申请人 | 英业达集团(西安)电子技术有限公司 | 发明人 | 陈淮琰;郑建锋 |
分类号 | H03M7/30 | 主分类号 | H03M7/30 |
代理机构 | 上海专利商标事务所 | 代理人 | 陈亮 |
主权项 | 1、一种适用于宽字符集文档的压缩方法,针对宽字符集文档进行压缩,该方法包括下列步骤:(1)首先,统计出宽离符集文档中不同字符的个数;(2)其次,藉所统计出不同中文字符的个数及各该中文字符的出现顺序,依一自订的规则,建立中文字符的码值转换表,对这些中文字符进行重新编码,以降低其HUFFMAN树图中的节点数量;再利用LZSS运算法在处理重复字元的编码上较佳的处理能力,对英文字符进行重新编码,令在每段英文之前及每段中文之前,分别加入一不会与文档数据冲突的额外标记,用以区分中、英文字符,以便在后续对这些英文字符进行压缩时,不压缩其高字元0x00部份;(3)然后,再依各字符出现的次数及低字元在前、高字元在后的顺序,分别建立二个HUFFMAN树图;(4)最后,根据该HUFFMAN树图分别建立中、英文字符的编码对应表,以使文档的中、英文字符依该编码对应表完成编码及压缩程序。 | ||
地址 | 710000陕西省西安市高新技术产业开发区西区F-2B号楼2楼 |