主权项 |
1、子带清浊音模糊判决的方法,其特征在于该方法包括以下步骤:(1)对输入语音信号样点按时间顺序分帧;(2)对当前帧提取基音周期参数;(3)对当前帧提取余量谱幅度参数;(4)将当前帧语音信号经过5个6阶的巴特沃思滤波器进行滤波,得到通带分别为0-500,500-1000,1000-2000,2000-3000和3000-4000Hz的5个子带信号;(5)根据第一个子带的语音信号对步骤(2)中求取的基音周期参数进一步改善,改善后的基因周期值为<img file="A2006101652460002C1.GIF" wi="59" he="62" />(6)求取第一个子带语音信号的自相关函数在步骤(5)中求取的基音周期参数<img file="A2006101652460002C2.GIF" wi="37" he="63" />位置上的值Vbp<sub>n,1</sub>;(7)求取其余4个子带语音信号的自相关函数以及其时间包络的自相关函数在步骤(5)中求取的基音周期参数<img file="A2006101652460002C3.GIF" wi="38" he="63" />位置上的值,并分别对每个子带取两者中的较大值:Vbp<sub>n,i</sub>=max{Vbp<sub>n,i</sub>′,Vbp<sub>n,i</sub>″}i=2,3,4,5其中,Vbp<sub>n,i</sub>′表示当前帧,即第n帧的第i子带的自相关函数在<img file="A2006101652460002C4.GIF" wi="37" he="64" />位置上的值;Vbp<sub>n,i</sub>″表示当前帧,即第n帧的第i子带的时间包络的自相关函数在<img file="A2006101652460002C5.GIF" wi="37" he="64" />位置上的值;(8)如果步骤(6)中求取的值Vbp<sub>n,1</sub>小于0.6,则将步骤(7)中的值全部修改为0,即Vbp<sub>n,i</sub>=0 i=2,3,4,5,否则保持不变;(9)将步骤(6)中求取的值Vbp<sub>n,1</sub>乘以一个设定的增益因子,该增益因子设定为1.2,如果相乘后结果大于1,则令其等于1,即:<![CDATA[ <math><mrow><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>×</mo><mn>1.2</mn><mo>></mo><mn>1</mn></mtd></mtr><mtr><mtd><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>×</mo><mn>1.2</mn></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>×</mo><mn>1.2</mn><mo>≤</mo><mn>1</mn></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>(10)将步骤(8)与步骤(9)中求取的值作为各子带的浊音隶属度,合并成为一个矢量<![CDATA[ <math><mrow><mover><mi>Vbp</mi><mo>‾</mo></mover><mo>=</mo><mrow><mo>(</mo><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>2</mn></mrow></msub><mo>,</mo><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>3</mn></mrow></msub><mo>,</mo><msub><mi>vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>4</mn></mrow></msub><mo>,</mo><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>5</mn></mrow></msub><mo>)</mo></mrow></mrow></math>]]></maths>,一起进行矢量量化;矢量量化采用对码本中的码字进行全搜索的方法获得最优量化码字:<img file="A2006101652460003C1.GIF" wi="641" he="110" />其中<img file="A2006101652460003C2.GIF" wi="75" he="55" />表示待量化的输入矢量,<img file="A2006101652460003C3.GIF" wi="84" he="56" />表示码本中的码字矢量,C表示码本,i是码字矢量在码本中的索引值,Er()函数表示特定的失真测度,这里采用最小加权均方误差,即<![CDATA[ <math><mrow><mi>Er</mi><mrow><mo>(</mo><mover><mi>Vbp</mi><mo>‾</mo></mover><mo>,</mo><msub><mover><mi>Vbp</mi><mo>‾</mo></mover><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mn>5</mn></munderover><msub><mi>W</mi><mi>k</mi></msub><msup><mrow><mo>(</mo><msub><mi>Vbp</mi><mi>k</mi></msub><mo>-</mo><msub><mi>Vbp</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></math>]]></maths>,其中Vbp<sub>k</sub>为待量化矢量的第k个分量,Vbp<sub>i,k</sub>为码本中第i个码字矢量的第k个分量,W为加权因子向量,这里取W=[16,8,4,2,1];量化后得到量化的各子带的浊音隶属度<img file="A2006101652460003C5.GIF" wi="96" he="64" />(11)将步骤(10)中得到的各子带的浊音隶属度、步骤(3)中的余量谱幅度参数以及步骤(5)中的基音周期参数一起用来合成激励信号。 |