发明名称 有限状态向量量化的语音辨认方法
摘要 本发明公开了一种有限状态向量量化的语音辨认方法,每个个别的声音以一由左到右的有限状态机来表示,并使用新的训练方法(Training Method),两段声音之间距离的度量(Distance Measure),采用振幅频谱dB值差的平方总和(square of error of magnitude spectrum),dB值是人耳度量声音音量的线性单位,因此这里所采用的距离的度量乃是仿真人耳,符合已发现并仍在使用中的物理定律,根据这个两段声音之间距离的度量,利用数学定理,推导出一语音特征向量(feature vector),及一公式利用此一特征向量计算两段声音之间差异的大小。语音模式的训练,乃是利用重复比对更新的方式,此语音模式的训练方法在数学上可以证明它是收敛的,也就是最终会得到其中最佳的语音模式。
申请公布号 CN1713272A 申请公布日期 2005.12.28
申请号 CN200410049932.1 申请日期 2004.06.21
申请人 翔连科技股份有限公司 发明人 刘利诚;刘怡萱;刘宛灵;杨志明;吴生三
分类号 G10L15/06;G10L15/08 主分类号 G10L15/06
代理机构 北京科龙寰宇知识产权代理有限责任公司 代理人 孙皓晨;贺华廉
主权项 1、一种有限状态向量量化的语音辨认方法,其中包含:距离量测的计算方式、语音辨认的训练方法;该距离量测的计算方式,是将(2δ+1)帧的频谱样型当作一个区域性的特征;对两个语音段落,每个的长度等于(2δ+1)帧,两者之间的距离量测采用它们的频谱dB值差的平方的总和,取10阶的倒频谱系数之后,两个频谱样型间的距离被表示为:<maths num="001"><![CDATA[ <math><mrow><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>0</mn></mrow><mn>10</mn></munderover><mo>{</mo><mrow><mo>(</mo><mn>2</mn><mi>&delta;</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>&CenterDot;</mo><msup><mrow><mo>[</mo><msubsup><mi>b</mi><mi>m</mi><mn>1</mn></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>b</mi><mi>m</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>]</mo></mrow><mn>2</mn></msup><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>&tau;</mi><mo>=</mo><mn>1</mn></mrow><mi>&delta;</mi></munderover><msup><mrow><mn>2</mn><mi>&tau;</mi></mrow><mn>2</mn></msup><mo>&CenterDot;</mo><msup><mrow><mo>[</mo><msubsup><mi>a</mi><mi>m</mi><mn>1</mn></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>a</mi><mi>m</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>]</mo></mrow><mn>2</mn></msup><mo>}</mo></mrow></math>]]></maths>在发声之前,计算环境音的特征向量统计值,帧的特征向量由a<sub>m</sub><sup>i</sup>(t)与b<sub>m</sub><sup>i</sup>(t)构成,其中t代表语音帧的时序索引,通过取样环境音期间20个帧的特征,计算此20个帧讯号的平均能量,得到平均能量NR<sub>0</sub>之后进行声音的开始的确定,当接收的连续6个帧能量大于NR<sub>0</sub>+TH<sub>1</sub>时,确定声音开始;然后利用计算特征向量公式,将20个帧讯号转换成16个特征向量<maths num="002"><![CDATA[ <math><mrow><mover><msub><mi>N</mi><mi>i</mi></msub><mo>&RightArrow;</mo></mover><mo>,</mo><mi>i</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mn>16</mn><mo>,</mo></mrow></math>]]></maths>根据该16个环境音的特征向量,得到环境音的平均特征向量,即<maths num="003"><![CDATA[ <math><mrow><mover><mi>N</mi><mo>&RightArrow;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mn>16</mn></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mn>16</mn></munderover><mover><msub><mi>N</mi><mi>i</mi></msub><mo>&RightArrow;</mo></mover><mo>;</mo></mrow></math>]]></maths>再计算环境音间的平均距离Davg,<maths num="004"><![CDATA[ <math><mrow><mi>Davg</mi><mo>=</mo><mfrac><mn>1</mn><mn>16</mn></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mn>16</mn></munderover><mi>D</mi><mrow><mo>(</mo><msub><mover><mi>N</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><mover><mi>N</mi><mo>&RightArrow;</mo></mover><mo>)</mo></mrow></mrow></math>]]></maths>此距离是根据(6)式加以计算估计的环境音间的距离其标准差为<maths num="005"><![CDATA[ <math><mrow><mi>&sigma;</mi><mo>=</mo><msup><mrow><mo>[</mo><mfrac><mn>1</mn><mn>16</mn></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mn>16</mn></munderover><msup><mi>D</mi><mn>2</mn></msup><mrow><mo>(</mo><msub><mover><mi>N</mi><mo>&RightArrow;</mo></mover><mi>i</mi></msub><mo>,</mo><mover><mi>N</mi><mo>&RightArrow;</mo></mover><mo>)</mo></mrow><mo>]</mo></mrow><mfrac><mn>1</mn><mn>2</mn></mfrac></msup></mrow></math>]]></maths>在发音期间,依序每个帧计算特征向量,如果连续三个帧其与环境音平均特征向量的距离大于Davg+5σ,取这三个连续帧的第一个帧当作可能的起始帧f<sub>s</sub>;决定声音的结束帧,由取样的声音的最后帧往前找,当连续三个帧其与环境音平均特征向量的距离大于Davg+5σ,取这三个帧的最后一个帧当作可能的结束帧f<sub>e</sub>;从可能的起始帧f<sub>s</sub>前16的个帧开始算起到可能的结束帧f<sub>e</sub>后的第16个帧止的范围,可以分成三个子区间,分别为起始帧f<sub>s</sub>前的16个帧为第一子区间,亦为环境音状态#1:而由起始帧f<sub>s</sub>至结束帧f<sub>e</sub>的区间则为第二子区间,以及结束帧f<sub>e</sub>后的16个帧为第三子区间,其为环境音状态#2;此语音模式利用有限状态向量量化予以训练,对环境音状态#1及环境音状态#2以平均特征向量<img file="A2004100499320003C1.GIF" wi="39" he="50" />当作起始码本;在第二子区间内,每连续4个帧的平均特征向量被当作相对应状态的起始码本,如此则第二子区间分成状态1,…,状态L;利用维特比(Viterbi)算法,将声音讯号的段落依照语音模式找出沿着最佳路径有最小累积距离的语音模式,沿最佳路径返回找出分属于各状态(环境音状态#1(11),状态1(12),...,状态L(13),环境音状态#2(14)的区域性特征向量,再修正各状态的码本,接着判断是否为收敛如果非收敛则回到维特比算法的步骤找出最佳的路径,如果为收敛则训练结束;经过如此反复的训练,此语音模式将收敛到一个最佳的语音模式;在辨识期间,找出声音可能的起始帧f<sub>s</sub>及可能的结束帧f<sub>e</sub>,而起始帧f<sub>s</sub>前的16个帧至结束帧f<sub>e</sub>后的16个帧构成声音讯号段落;每个语音模式中的环境音状态#1(11)及环境音状态#2(14)的码本以<img file="A2004100499320003C2.GIF" wi="39" he="52" />取代,利用维特比(Viterbi)算法,将声音讯号的段落依照各个语音模式分别找出最佳路径,并计算出各个语音模式最佳路径的累积距离,分别为D<sub>i</sub>,i=1,.....,R(R为欲辨识之词组的数目),并在D<sub>i</sub>中找出最小值,则此词组即为辨识的结果。
地址 中国台湾