发明名称 一种适用于宽字符集(UNICODE)文档之压缩方法
摘要 本发明系一种适用于宽字符集(UNICODE)文档之压缩方法,主要系先对文档之中、英文字符分别进行编码,忽略英文字符中重复之高字元OxOO,且利用一自订规则,对中文字符重新进行编码,并在每段英文之前及每段中文之前,分别加入一个不会与文档资料冲突之额外标记,用以区分中、英文字符,俾在后续压缩程序中,依其低字元在前、高字元在后之顺序及出现概率,据以分别进行压缩,本发明之压缩方法可有效减少中、英文字符在HUFFMAN树图中之节点数量,从而大幅提升文档之压缩率。
申请公布号 TW385596 申请公布日期 2000.03.21
申请号 TW087120163 申请日期 1998.12.04
申请人 英业达股份有限公司 发明人 陈淮琰;郑建锋
分类号 H03M7/30 主分类号 H03M7/30
代理机构 代理人 严国杰 台北巿承德路一段七十之一号六楼
主权项 1.一种适用于宽字符集(UNICODE)文档之压缩方法,该方法系一种针对UNICODE文档进行压缩之方法,主要包括下列步骤:(1)首先,统计出UNICODE文档中不同字符之个数;(2)其次,藉所统计出不同中文字符之个数及各该中文字符之出现顺序,依一自订之规则,建立一中文字符之码値转换表,对该等中文字符进行重新编码,以降低其HUFFMAN树图中之节点数量;再利用LZSS运算法在处理重复字元之编码上较佳之处理能力,对英文字符进行重新编码,令在每段英文之前及每段中文之前,分别加入一不会与文档资料冲突之额外标记,用以区分中、英文字符,俾后续在对该等英文字符进行压缩时,不压缩其高字元0x00部份;(3)嗣,再依各字符出现之次数,及低字元在前、高字元在后之顺序,分别建立二个HUFFMAN树图;(4)最后,根据该二HUFFMAN树图分别建立中、英文字符之一编码对应表,俾该文档之中、英文字符依该编码对应表完成编码及压缩程序。2.如申请专利范围第1项所述之一种适用于宽字符集(UNICODE)文档之压缩方法,其中该自订之编码规则主要系采用2Bytes之编码方式,俾不致改变原文档之资料长度。3.如申请专利范围第1项所述之一种适用于宽字符集(UNICODE)文档之压缩方法,其中该自订之编码规则中其码値范围可为文档中不同码値之中文字符之总个数之平方根加1,而起始码値可在0x00-0xff之间任选,但须满足下列条件:结束码値-起始码値>不同中文字符个数之平方根+14.如申请专利范围第1项所述之一种适用于宽字符集(UNICODE)文档之压缩方法,其中该标记系为一待压缩信息,在后续压缩程序中,将一并予以压缩,以大幅提高对英文字符之压缩率。5.如申请专利范围第1项所述之一种适用于宽字符集(UNICODE)文档之压缩方法,其中该中文字符之码値转换表之码値系依中文字符出现顺序排列,其栏位个数则系不同中文字符之个数。6.如申请专利范围第1项所述之一种适用于宽字符集(UNICODE)文档之压缩方法,其中该方法在对英文字符进行解压缩时,系先藉查寻该对应编码表,以解压缩出英文字符之低字元,再将其高字元设为0x00。7.如申请专利范围第1项所述之一种适用于宽字符集(UNICODE)文档之压缩方法,其中在对中文字符进行解压缩时,系藉查寻该对应编码表,以求得解压缩之编码,嗣,再根据该中文字符之码値转换表,求得该中文字符之对应码値。图式简单说明:第一图为传统HUFFMAN运算法之流程示意图;第二图为字符集「banan」所建立之HUFFMAN树图之示意图;第三图为本发明之流程示意图;第四图为本发明之中文字符重新编码及换码示意图;第五图为利用本发明之一实施例所建立之HUFFMAN树图之示意图;第六图为利用之传统HUFFMAN运算法所建立之HUFFMAN树图之示意图;第七图为利用本发明及传统HUFFMAN运算法所建立之HUFFMAN树图之比较示意图。
地址 台北巿士林区后港街六十六号