发明名称 汉语语音码多样网页信息搜索转换翻译方法
摘要 本发明是一种用于计算机或嵌入式计算机系统的汉语语音码多样网页信息搜索转换翻译的方法,属于计算机网页信息处理技术领域。通过这种方法可以方便地将搜索到的汉字和《汉语拼音方案》表达的汉语信息网页转换成汉语语音码表达的汉语信息网页,并可以进行汉语与外文网页的双向翻译和网页汉语语音的合成输出,在信息搜索时,既可以采用输入字符的方法,也可以采用汉语语音输入的方法,网页采用汉语语音码表示汉语信息后,使得表示汉语信息的网页可以在纯西码系统中显示和运行,本发明能给计算机或嵌入式计算机系统的网页信息的翻译转换提供极大的便利。
申请公布号 CN102479208A 申请公布日期 2012.05.30
申请号 CN201010564052.3 申请日期 2010.11.26
申请人 苗玉水 发明人 苗玉水
分类号 G06F17/30(2006.01)I;G06F17/28(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种用于计算机或嵌入式计算机系统,以下简称为计算机或计算机系统的汉语语音码多样网页信息搜索转换翻译的方法,其特征主要包括以下步骤:步骤A:(一)所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法:注:括号内的符号均为《汉语拼音方案》中的汉语拼音符号,以下简称为汉语拼音符号,不带括号的字母为本方案所采用的汉语语音码的每一音节声、韵、调的编码符号,以下将下列对照表简称为码表;1、声码的编码符号采用与汉语拼音方案基本一致的声母的字母符号,比如采用下面这种声码的编码形式:b:(b)  p:(p)  m:(m)  f:(f)  d:(d)        t:(t)n:(n)  l:(l)  g:(g)  k:(k)  h:(h)j:(zh),(j)    q:(ch),(q)    x:(sh),(x)  r:(r)z:(z)  c:(c)  s:(s)  y:(y)  w:(w)2、汉语拼音介母(ü)采用26个拉丁字母中的一个字母表示,比如采用下面这种介码的编码形式:i:(i)  u:(u)  y:(ü)3、韵码的编码,对单韵母除(ü)采用26个拉丁字母中的一个字母表示外,其它采用与汉语拼音相同的字母符号,汉语拼音的复合韵母只要是采用辅音字母来编码都是可以的,比如采用下面的这种字母符号来对汉语拼音的韵母进行编码:a:(a)   o:(o)  e:(e)   i:(i)   u:(u)  y:(ü)k:(ao)  c:(ai) s:(an)  x:(ou)  w:(ei) n:(en)z:(ua)  l:(uo) b:(ang) d:(ong) p:(eng)q:(ing) g:(ng) er:(er) er为无声母韵母r:(i)[只与(zh)、(ch)、(sh)相拼]4、调码的编码除采用一个汉语不用的辅音字母v表示汉语拼音的上声(∨)外,其它声母采用元音字母来表示汉语的声调,比如采用下面的字母来对汉语拼音的声调进行编码:a:(‑)阴平e:(/)阳平v:(∨)上声u:(/)去声o:(不标)轻声(二)利用上述编码的汉语语音码汉语信息表示采用如下的方法:以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,当汉语信息表示处于汉语语音码状态时,其六种点号,七种标号和一个移行号采用与英文相同的形式;步骤B:信息搜索时采用以现有的传统的信息搜索引擎为基础,既能够将汉字、汉语拼音、汉语语音码、外文作为信息搜索的关键词直接输入搜索引擎的关键词输入框进行信息搜索,也能够通过将输入搜索引擎关键词输入框的汉字、汉语拼音、汉语语音码、外文或汉语语音,通过相应的转换模块转换成预先设定的信息种类后,再进行信息搜索,输出查询到的信息,能够按照系统默认或预先设定的信息种类方式输出,上述这种信息种类可以是但不限于汉字、汉语拼音、汉语语音码、外文、汉语特定人语音、中国方言语音、少数民族语言语音、汉语语音或外语语音;当需要将用汉字或汉语拼音表示的汉语信息的网页转换成汉语语音码表示的汉语信息的网页时,计算机系统首先找到该网页的源文件,对该网页会显示的汉字或汉语拼音表示的汉语信息内容进行变换,比如以计算机扩展名为“.html”或“.hml”的文本文件的网页源代码为例,通过调用汉字或汉语拼音转换成汉语语音码的双向转换模块,将该文本文件中所有会显示出来的汉字或全部汉语拼音,在它们原来的网页的位置上转换成汉语语音码,一般需要转换的汉字是除作为文件名的汉字和作为汉字字体名称的汉字外的所有汉字;在将汉字网页转换成汉语语音码表示的网页时,原来网页中的英文、英文字母、阿拉伯数字、西文标点符号、移行号不需要转换,保留原样;网页中作为文件名的汉字,为了能在纯西码也可以称为纯ASCII码的计算机系统中显示和运行,需要将网页中作为文件名的汉字转换成汉语语音码,被转换后的原用汉字作为文件名的文件要复制并储存在合适的位置,比如指定服务器或本地机中的指定文件夹中,以确保计算机系统能够找到这个被转换成汉语语音码名称的文件;对于汉字字体名称的汉字,当西码也即ASCII码系统里不存在该汉字字体名称时,计算机可以将该汉字字体名称自动换成预先设定并储存在计算机中的较为相近的西文字体名称,或计算机预先设定的默认的西文字体名称;当网页中的汉语语音码需要转换成汉语拼音时,既可以采用查步骤A中的码表,也可以查预先储存在计算机中的通过步骤A中的码表生成的以音节或词为单位的汉语语音码与以音节或词为单位的汉语拼音对照表,匹配后找出相应的汉语拼音,并用这些汉语拼音在原来网页中的汉语语音码的位置替换掉被转换了的汉语语音码;当网页中的汉语语音码需要转换成汉字时,既可以先转换成以词为单位的汉语拼音再转换成以词为单位的汉字,也可以直接采用查预先储存在计算机中的汉语语音码与以词为单位的汉字对照表、匹配后找出相应的汉字,并用这些汉字在原来网页中的汉语语音码的位置替换掉被转换的汉语语音码;遇同音词时,先依据汉语词法句法上下文联系及统计规律等手段进行判别,判别后再进行以词为单位的汉字选定;在汉语语音码转换成汉字和汉语拼音时,其标点符号也从与英文相同的状态转变为相应的中文标点符号状态;当网页中的汉语语音码需要转换成语音时,可以分别采用查预先储存在计算机系统中的汉语语音码与音节、单词、语段语音合成文件对照表输出相应的语音;当将汉语语音码或汉语语音码串所分别对应的音节、单词或语段的语音合成文件分别换成汉语特定人、中国方言、少数民族语言的语音合成文件时,通过查预先储存在计算机中的汉语语音码或汉语语音码串与分别对应的汉语特定人、中国方言、少数民族语言的音节、单词或语段的语音合成文件对照表,可以分别输出相应的汉语特定人、中国方言、少数民族语言的语音;当对汉语语音码网页中的标点符号和移行号进行语音合成时,我们只要将相应的预先储存在计算机中的标点符号和移行号的声音文件提取出来,用声音播放软件进行播放便可;当该标点符号和移行号语音合成文件分别是汉语特定人、中国方言、少数民族语言的语音合成文件时,则该标点符号或移行号朗读出来的声音便分别是汉语特定人、中国方言、少数民族语言的相应的标点符号或移行号的声音;当网页中以英文为主的外文需要转换成语音时,可以采用现有以英文为主的外文语音合成模块,将会在网页中显示出来的以英文为主的外文朗读出来;当需要将网页中的汉语语音码表示的汉语信息转换成以英文为主的外文,或者网页中的英文为主的外文需要转换成汉语语音码表示的汉语信息时,计算机先要判明哪些是属于会在网页中显示的汉语语音码,哪些是属于会在网页中显示的外文后,通过调用预 先储存在计算机中的汉语语音码与外文双向转换模块,在被转换的语音码的网页中的位置,将汉语语音码表示的汉语信息转换成以英文为主的外文,或者在被转换的以英文为主的外文的网页中的位置,将网页中英文为主的外文转换成汉语语音码表示的汉语信息;当光标停留在搜索引擎关键词输入框,所需搜索的关键词用汉语语音输入时,计算机系统调用汉语语音识别模块,将所输入的汉语语音或带某种方言口音的汉语或方言先转换成汉字或汉语语音码后,再将所得到的汉字或汉语语音码作为搜索引擎的关键词来进行网页搜索,或将所得到的汉字或汉语语音码用上面叙述过的方法分别转换成外文后,再作为搜索引擎的关键词来进行网页搜索;对采用以上方法搜索到的所有网页,可以根据需要将原网页中的全部或部分内容以及超联接的路径或文件,改成指定的内容以及指定的超联接的路径或文件。以上在阐述网页信息转换和翻译的方法时,是以计算机的后缀为“.html”和“.hml”文本文件为例,实际上对于其它能被浏览器释读的以合法方式编写的各种格式的网页源文件,包括在嵌入式系统使用的网页源文件,都可以按上述相同或类似的方法进行转换和翻译,从而达到对各种网页显示内容的转换和翻译的目的。
地址 200093 上海市杨浦区控江一村44号甲105室