发明名称 语音辨识系统的分段处理
摘要 本发明系提供一新式分割方法以识别在发声资料之一主要部分中的语音单元。所接收到的发声资料之一主要部分经过处理并且决定一组候选语音单元边界以定义一组候选语音单元。该组候选语音单元边界的决定系基于逆谱(Cepstral)系数值中的变化、发声能量的变化、语音分类中的变化、口音种类分析(卷舌音,后母音,前母音)和响音起点的检测。(该组候选语音单元边界系根据优先性和近似性的其他候选语音单元以及无声区域中过滤。)该组候选语音单元系利用无交叉区域分析所过滤,以产生一组已过滤候选语音单元。无交叉区域分析通常涉及放弃完全横跨一能量升级、一能量降级,一能阶或是口音范畴型无交叉区域的候选语音单元。最后,在以定义该单元末端和在该单元之内的候选边界的机率为基础的该组已过滤候选语音单元之中选择一组语音单元。
申请公布号 TW502249 申请公布日期 2002.09.11
申请号 TW090107112 申请日期 2001.03.26
申请人 史毕奇渥斯国际公司 发明人 马克凡帝;麦克S 菲力普
分类号 G10L15/00 主分类号 G10L15/00
代理机构 代理人 蔡坤财 台北巿松江路一四八号十二楼
主权项 1.一种用来自动决定由一发声资料之主要部分所发出之一组语音单元的方法,该方法包含有下列的由电脑所执行之步骤:接收该发声资料之主要部分;由该发声资料之主要部分来决定一组候选语音单元边界以定义一组候选语音单元;使用无交叉区域分析来过滤该组候选语音单元以产生一组已过滤之候选语音单元;以及由该组已过滤之候选语音单元中挑选该组语音单元。2.如申请专利范围第1项所述之方法,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤确认包括确认一被缓和之逆谱(Cepstral)变化测量的峰値。3.如申请专利范围第1项所述之方法,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤包括确认一被缓和的能量变化测量的峰値。4.如申请专利范围第1项所述之方法,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤确认包括确认一被缓和的语音分类测量中的峰値。5.如申请专利范围第1项所述之方法,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤色括确认具有属于某种口音语音范畴的高机率之区域的存在以及增加边界于边缘。6.如申请专利范围第1项所述之方法,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤包括检查响音的起始和添加一附加边界以说明可能的声音停顿处。7.如申请专利范围第1项所述之方法,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤包括放弃一个或更多的候选语音单元边界,该候选语音单元边界系在一特定之邻近至少一个的其他较优先的候选语音单元边界。8.如申请专利范围第1项所述之方法,其中上述之从发声资料的主要部分决定候选语音单元边界之步骤包括放弃一或多个已决定包含于一无声区域之候选语音单元边界。9.如申请专利范围第1项所述之方法,其中上述之使用无交叉区域分析来过滤该组候选语音单元以产生一组已过滤之候选语音单元之步骤包括确认由该发声资料的主要部分所定义之一组有一或多个无交叉区域,并放弃该组候选语音单元中之一个或更多之完全横跨一或多个无交叉区域中之至少一个无交叉区域的候选语音单元。10.如申请专利范围第9项所述之方法,其中上述之确认一组有一或多个无交叉区域包括确认该发声能量中一符合特定无交叉区域标准之变化。11.如申请专利范围第10项所述之方法,其中上述之特定无交叉区域标准包括发声能量中一最小增加量和确认一组有一或多个无交叉区域包含确认发声能量中超过最小增加量的一增加量。12.如申请专利范围第11项所述之方法,其中上述之特定无交叉区域标准包括发声能量中一最小减少量和确认一组有一或多个无交叉区域包含确认发声能量中超过最小减少量的一减少量。13.如申请专利范围第11项所述之方法,其中上述之特定无交叉区域标准包括下降无交叉区域标准,而确认一组有一或多个无交叉区域则包括确认发声资料中一符合该下降无交叉区域标准的能量下降区域。14.如申请专利范围第11项所述之方法,其中上述之特定无交叉区域标准包括下降无交叉区域标准,而确认一组有一或多个无交叉区域则包括确认发声资料中一已充分改变口音范畴分类以符合该口音范畴无交叉区域标准的区域。15.如申请专利范围第1项所述之方法,其中上述之该组已过滤之候选语音单元中挑选该组语音单元包括挑选具有末端边界之相对最高机率与末端边界之相对最低机率的一组语音单元编号。16.一种电脑可请取记录媒体,载有一或多个次序或是一或多个指令以从一发声资料的主要部分自动地决定一组语音单元,该一或多个次序或是一或多个指令包括有可被一或多个处理器执行的指令以使该一或多个处理器完成下列之步骤:接收该发声资料之主要部分;由该发声资料之主要部分来决定一组候选语音单元边界以定义一组候选语音单元;使用无交叉区域分析来过滤该组候选语音单元以产生一组已过滤之候选语音单元;以及由该组已过滤之候选语音单元中挑选该组语音单元。17.如申请专利范围第16项所述之电脑可读取记录媒体,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤确认包括确认一被缓和之逆谱(Cepstral)变化测量的峰値。18.如申请专利范围第16项所述之电脑可读取记录媒体,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤包括确认一被缓和的能量变化测量的峰値。19.如申请专利范围第16项所述之电脑可读取记录媒体,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤确认包括确认一被缓和的语音分类测量中的峰値。20.如申请专利范围第16项所述之电脑可读取记录媒体,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤包括确认具有属于某种口音语音范畴的高机率之区域的存在以及增加边界于边缘。21.如申请专利范围第16项所述之电脑可读取记录媒体,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤包括检查响音的起始和添加一附加边界以说明可能的声音停顿处。22.如申请专利范围第16项所述之电脑可读取记录媒体,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤包括放弃一个或更多的候选语音单元边界,该候选语音单元边界系在一特定之邻近至少一个的其他较优先的候选语音单元边界。23.如申请专利范围第16项所述之电脑可读取记录媒体,其中上述之从发声资料的主要部分决定候选语音单元边界之步骤包括放弃一或多个已决定包含于一无声区域之候选语音单元边界。24.如申请专利范围第16项所述之电脑可读取记录媒体,其中上述之使用无交叉区域分析来过滤该组候选语音单元以产生一组已过滤之候选语音单元之步骤包括确认由该发声资料的主要部分所定义之一组有一或多个无交叉区域,并放弃该组候选语音单元中之一个或更多之完全横跨一或多个无交叉区域中之至少一个无交叉区域的候选语音单元。25.如申请专利范围第24项所述之电脑可读取记录媒体,其中上述之确认一组有一或多个无交叉区域包括确认该发声能量中一符合特定无交叉区域标准之变化。26.如申请专利范围第25项所述之电脑可读取记录媒体,其中上述之特定无交叉区域标准包括发声能量中一最小增加量和确认一组有一或多个无交叉区域包含确认发声能量中超过最小增加量的一增加量。27.如申请专利范围第26项所述之电脑可读取记录媒体,其中上述之特定无交叉区域标准包括发声能量中一最小减少量和确认一组有一或多个无交叉区域包含确认发声能量中超过最小减少量的一减少量。28.如申请专利范围第26项所述之电脑可读取记录媒体,其中上述之特定无交叉区域标准包括下降无交叉区域标准,而确认一组有一或多个无交叉区域则包括确认发声资料中一符合该下降无交叉区域标准的能量下降区域。29.如申请专利范围第26项所述之电脑可读取记录媒体,其其中上述之特定无交叉区域标准包括下降无交叉区域标准,而确认一组有一或多个无交叉区域则包括确认发声资料中一已充分改变口音范畴分类以符合该口音范畴无交叉区域标准的区域。30.如申请专利范围第16项所述之电脑可读取记录媒体,其中上述之该组已过滤之候选语音单元中挑选该组语音单元包括挑选具有末端边界之相对最高机率与末端边界之相对最低机率的一组语音单元编号。31.一种语音辨认系统,用来自动决定一由一发声资料之主要部分所发出之一组语音单元,该语音辨认系统包含有:一或多个处理器;以及一记忆体,以可相互沟通的方式连结于该一或多个处理器,其中该记忆体包含有一或多个次序或是一或多个指令以从一发声资料的主要部分自动地决定一组语音单元,该一或多个次序或是一或多个指令包括有可被一或多个处理器执行的指令以使该一或多个处理器完成下列之步骤:接收该发声资料之主要部分;由该发声资料之主要部分来决定一组候选语音单元边界以定义一组候选语音单元;使用无交叉区域分析来过滤该组候选语音单元以产生一组已过滤之候选语音单元;以及由该组已过滤之候选语音单元中挑选该组语音单元。32.如申请专利范围第31项所述之语音辨认系统,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤确认包括确认一被缓和之逆谱(Cepstral)变化测量的峰値。33.如申请专利范围第31项所述之语音辨认系统,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤包括确认一被缓和的能量变化测量的峰値。34.如申请专利范围第31项所述之语音辨认系统,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤确认包括确认一被缓和的语音分类测量中的峰値。35.如申请专利范围第31项所述之语音辨认系统,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤包括确认具有属于某种口音语音范畴的高机率之区域的存在以及增加边界于边缘。36.如申请专利范围第31项所述之语音辨认系统,其中上述之由该发声资料之主要部分来决定一组候选语音单元边界之步骤包括检查响音的起始和添加一附加边界以说明可能的声音停顿处。37.如申请专利范围第31项所述之语音辨认系统,其中上述之由该发声资料之主要部分来决定一组侯选语音单元边界之步骤包括放弃一个或更多的候选语音单元边界,该候选语音单元边界系在一特定之邻近至少一个的其他较优先的候选语音单元边界。38.如申请专利范围第31项所述之语音辨认系统,其中上述之从发声资料的主要部分决定候选语音单元边界之步骤包括放弃一或多个已决定包含于一无声区域之候选语音单元边界。39.如申请专利范围第31项所述之语音辨认系统,上述之使用无交叉区域分析来过滤该组候选语音单元以产生一组已过滤之候选语音单元之步骤包括确认由该发声资料的主要部分所定义之一组有一或多个无交叉区域,并放弃该组候选语音单元中之一个或更多之完全横跨一或多个无交叉区域中之至少一个无交叉区域的候选语音单元。40.如申请专利范围第39项所述之语音辨认系统,其中上述之确认一组有一或多个无交叉区域包括确认该发声能量中一符合特定无交叉区域标准之变化。41.如申请专利范围第40项所述之语音辨认系统,其中上述之特定无交叉区域标准包括发声能量中一最小增加量和确认一组有一或多个无交叉区域包含确认发声能量中超过最小增加量的一增加量。42.如申请专利范围第41项所述之语音辨认系统,其中上述之特定无交叉区域标准包括发声能量中一最小减少量和确认一组有一或多个无交叉区域包含确认发声能量中超过最小减少量的一减少量。43.如申请专利范围第41项所述之语音辨认系统,其中上述之特定无交叉区域标准包括下降无交叉区域标准,而确认一组有一或多个无交叉区域则包括确认发声资料中一符合该下降无交叉区域标准的能量下降区域。44.如申请专利范围第41项所述之语音办认系统,其中上述之特定无交叉区域标准包括下降无交叉区域标准,而确认一组有一或多个无交叉区域则包括确认发声资料中一已充分改变口音范畴分类以符合该口音范畴无交叉区域标准的区域。45.如申请专利范围第31项所述之语音辨认系统,其中上述之该组已过滤之候选语音单元中挑选该组语音单元包括挑选具有末端边界之相对最高机率与末端边界之相对最低机率的一组语音单元编号。图式简单说明:第1图为根据一实施例的一方块图显示一语音辨识系统中一用来模仿语音之分音器。第2图为根据一实施例的一流程图显示一模仿语音方法。第3图为一方块图显示一发声资料的10个框格(F1至F10)。第4图为根据一实施例的一流程图显示一利用逆谱(Cepstral)系数来确认一框格的一边界的方法。第5图为根据一实施例的一流程图显示一利用语音差异来确认一框格的一边界的方法。第6A图为根据一实施例的一示意图显示发声波形、一音频图以及三种用来检测边界的口音语音分类的机率。第6B图为根据一实施例的一流程图显示一用来处理响音起点之检测的方法。第7A图为根据一实施例的一流程图显示一根据优先性和近似性来过滤候选边界的方法。第7B图为根据一实施例的一流程图750显示一用来过滤包含于无声区域之候选边界的方法。第8图为根据一实施例的一流程图显示一用来确认一能量升高型的无交叉区域。第9图为根据一实施例的一流程图显示一用来确认一下降型的无交叉区域。第10图为根据一实施例的一示意图显示一用来选择最终单音的方法。第11图为执行实施例的一电脑系统的一方块图。
地址 美国