发明名称 一种微博信息的压缩编码和解码的方法及装置
摘要 本发明实施例公开了微博信息的压缩编码和解码的方法及装置,本发明实施例通过设置中文词典、中文符号表和英文字典对使用UCS-2编码的微博进行压缩再编码,其中压缩编码的方法概括为:识别UCS-2编码文本中各UCS-2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS-2编码文本分成至少一个字符段;根据中文词典和中文符号表,对中文字符段进行压缩再编码;根据英文字典,对英文字符段进行压缩再编码;生成压缩编码微博。根据本发明实施例,可用2个字节表示原来用4个以上字节表示的中文词组和英文单词,节省了微博传输的字符数,提高了传输效率,降低了网络流量,增加了每条微博的可写字数。
申请公布号 CN102508824B 申请公布日期 2013.04.03
申请号 CN201110298118.3 申请日期 2011.09.29
申请人 苏州大学 发明人 李培峰;朱巧明;刁红军;朱晓旭;张玉华
分类号 G06F17/22(2006.01)I;G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 逯长明
主权项 一种微博信息的压缩编码的方法,其特征在于,步骤包括:A.识别UCS‑2编码文本中各UCS‑2编码的字符类型,根据识别的字符类型,依照连续的同类型的字符划分成一段的原则,将所述UCS‑2编码文本分成至少一个字符段;B.对于中文字符段,根据中文词典,对所述中文字符段进行分词操作,生成包含至少一个切分单元的切分中文字符段,根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段;所述根据所述中文词典和中文符号表,将所述切分单元压缩再编码成用2个字节表示,生成压缩编码中文字符段的过程包括:判断所述切分单元的长度值是否大于1,若是,则所述切分单元为词组,用所述词组在所述中文词典中的序号加0x8000,对所述词组的UCS‑2编码进行编码并替换;若否,判断所述切分单元的值是否在0x4E00至0x9FFF之间;若是,则所述切分单元为汉字,用所述汉字的UCS‑2编码加0x6000,对所述汉字的UCS‑2编码进行编码并替换,若否,则所述切分单元为中文符号,用所述中文符号在中文符号表中的序号加0xAD00,对所述中文符号的UCS‑2编码进行编码并替换;对于英文字符段,根据英文字符间的空格符,将所述英文字符段切分成包含至少一个单词的切分英文字符段,所述空格符为所述单词之一,判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否,则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段;所述判断所述单词是否在英文字典中,若是,则根据英文字典,将所述单词压缩再编码成用2个字节表示,若否,则将所述单词的各英文字符压缩再编码成用1个字节表示,生成压缩编码英文字符段包括:在英文字典中查找所述单词,若能找到所述单词,用所述单词在所述英文字典中的序号,对所述单词的UCS‑2编码进行编码并替换;若不能找到所述单词,用与所述单词的UCS‑2编码对应的ASCII码,对所述单词的UCS‑2编码进行编码并替换;C.根据步骤B生成的每个压缩编码字符段在微博中的顺序,生成压缩编码微博。
地址 215123 江苏省苏州市工业园区仁爱路199号