发明名称 一种统计资料特征进行压缩之方法
摘要 本发明系一种统计资料特征进行压缩之方法,该方法主要是利用统计技术得到资料之特征(如字典资料之语言单位及其重复频率),嗣,根据该特征之独特性,将该资料分成若干个小分块,以及将该等特征按特定规律排序,并根据特定规律排序将该等特征分别编列一序号,以对该等小分块进行压缩编码,该等编码系分别以该等序号替代,而对该资料中非具有特征之部份则按照哈夫曼(Huffman)压缩算法予以编码,如此,可减少使用的存储空间,从而达到提高资料压缩效率的目的,俾对于超大容量之资料,尤其是字典资料中语言单位重复频率高之资料,在资料处理上更快、更高效压缩资料的功效。
申请公布号 TW527784 申请公布日期 2003.04.11
申请号 TW089127106 申请日期 2000.12.18
申请人 无敌科技股份有限公司 发明人 陈淮琰;吴卫国
分类号 H03M7/30 主分类号 H03M7/30
代理机构 代理人 严国杰 台北市大同区承德路一段七十之一号六楼
主权项 1.一种统计资料特征进行压缩之方法,该方法主要是利用统计技术得到资料之特征,嗣,该资料根据该特征之独特性,将该资料分成若干个小分块,以及将该特征按特定规律排序,并根据该排序将该特征分别编列一序号,以对该等小分块进行压缩编码,该等编码系分别以该等序号替代,而对该资料中非具有特征之部份则按照哈夫曼压缩算法予以编码。2.如申请专利范围第1项所述之一种统计资料特征进行压缩之方法,其中该等小分块进行压缩编码时,并可存储各小块之地址索引。3.如申请专利范围第1项所述之一种统计资料特征进行压缩之方法,其中该资料系可为一做为辅助学习之工具之字典类资料,其中该资料内之语言单位具有很高之重复性,该等语言单位以及其重复频率,即是该字典类资料之特征。4.如申请专利范围第3项所述之一种统计资料特征进行压缩之方法,其中该资料之系可依下列步骤进行统计压缩:首先,统计出字典资料中语言单位及其重复频率,从而得到语言单位及其重复频率之列表;其次,根据列表中的统计结果所得出资料之语言单位和其重复频率,总结出整个资料的特征,从而提出压缩该笔资料的最优方案;即依照资料的特征,将整个资料分成若干个小资料块,并存储各小块之地址索引;以及依据该特征将该等语言单位,依照该等语言单位之特定规律排序,并根据该等排序分别编列一序号。最后,依据资料特征,将资料进行分块编码,而重复单位则以排序之序号代替编码,对于非重复的语言单位则可以仍简单的按照哈夫曼压缩算法方法予以编码。5.如申请专利范围第4项所述之一种统计资料特征进行压缩之方法,其中实现统计资料之方法系对资料处理过程中以索引値形式代替资料中真正的语言单位,即建立一个索引文件来帮助统计资料中语言单位之重复频率。6.如申请专利范围第5项所述之一种统计资料特征进行压缩之方法,其中建立一个索引文件之方法,系根据该资料中语言单位重覆出现之频率,转换成一排序作业,藉建立一索引表,将该资料文件中重覆出现频率较高之语言单位,以该索引表中之索引値代替该资料中真正之语言单位,俾在对该资料进行压缩之处理过程中,可藉该索引表协助统计该资料中语言单位重覆出现之频率。图式简单说明:第一图乃本发明之实现资料压缩的实现过程之流程图。第二图乃本发明用来统计资料语言单位及其重复频率之列表。第三图乃本发明实施例之一之牛津英汉辞典压缩结果对比表。第四图乃本发明实施例之二之一种PDA产品中牛津英汉辞典压缩结果对比表。
地址 台北市士林区文林路四八八号四楼