发明名称 子带清浊音模糊判决的方法
摘要 子带清浊音模糊判决方法,属于低速率语音压缩编码技术领域。其特征在于,在利用目前通用的带通浊音度参数提取方法得到除第一子带以外的其余四个子带的浊音隶属度后,将第一个子带滤波后信号的自相关函数在基音周期参数处的值乘以一个设定的增益因子,作为第一个子带的浊音隶属度,如果结果超过1,则令其等于1;将各子带的浊音隶属度一起进行矢量量化,得到量化后各子带的浊音隶属度,和基音周期参数等一起合成激励信号。这种方法可以提高合成语音的自然度。该方法适合低速率参数语音编码。
申请公布号 CN101009096A 申请公布日期 2007.08.01
申请号 CN200610165246.X 申请日期 2006.12.15
申请人 清华大学 发明人 崔慧娟;唐昆;李晔;洪侃
分类号 G10L19/00(2006.01);G10L19/08(2006.01);G10L19/14(2006.01);G10L11/06(2006.01) 主分类号 G10L19/00(2006.01)
代理机构 代理人
主权项 1、子带清浊音模糊判决的方法,其特征在于该方法包括以下步骤:(1)对输入语音信号样点按时间顺序分帧;(2)对当前帧提取基音周期参数;(3)对当前帧提取余量谱幅度参数;(4)将当前帧语音信号经过5个6阶的巴特沃思滤波器进行滤波,得到通带分别为0-500,500-1000,1000-2000,2000-3000和3000-4000Hz的5个子带信号;(5)根据第一个子带的语音信号对步骤(2)中求取的基音周期参数进一步改善,改善后的基因周期值为<img file="A2006101652460002C1.GIF" wi="59" he="62" />(6)求取第一个子带语音信号的自相关函数在步骤(5)中求取的基音周期参数<img file="A2006101652460002C2.GIF" wi="37" he="63" />位置上的值Vbp<sub>n,1</sub>;(7)求取其余4个子带语音信号的自相关函数以及其时间包络的自相关函数在步骤(5)中求取的基音周期参数<img file="A2006101652460002C3.GIF" wi="38" he="63" />位置上的值,并分别对每个子带取两者中的较大值:Vbp<sub>n,i</sub>=max{Vbp<sub>n,i</sub>′,Vbp<sub>n,i</sub>″}i=2,3,4,5其中,Vbp<sub>n,i</sub>′表示当前帧,即第n帧的第i子带的自相关函数在<img file="A2006101652460002C4.GIF" wi="37" he="64" />位置上的值;Vbp<sub>n,i</sub>″表示当前帧,即第n帧的第i子带的时间包络的自相关函数在<img file="A2006101652460002C5.GIF" wi="37" he="64" />位置上的值;(8)如果步骤(6)中求取的值Vbp<sub>n,1</sub>小于0.6,则将步骤(7)中的值全部修改为0,即Vbp<sub>n,i</sub>=0 i=2,3,4,5,否则保持不变;(9)将步骤(6)中求取的值Vbp<sub>n,1</sub>乘以一个设定的增益因子,该增益因子设定为1.2,如果相乘后结果大于1,则令其等于1,即:<![CDATA[ <math><mrow><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>&times;</mo><mn>1.2</mn><mo>></mo><mn>1</mn></mtd></mtr><mtr><mtd><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>&times;</mo><mn>1.2</mn></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>&times;</mo><mn>1.2</mn><mo>&le;</mo><mn>1</mn></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>(10)将步骤(8)与步骤(9)中求取的值作为各子带的浊音隶属度,合并成为一个矢量<![CDATA[ <math><mrow><mover><mi>Vbp</mi><mo>&OverBar;</mo></mover><mo>=</mo><mrow><mo>(</mo><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>2</mn></mrow></msub><mo>,</mo><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>3</mn></mrow></msub><mo>,</mo><msub><mi>vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>4</mn></mrow></msub><mo>,</mo><msub><mi>Vbp</mi><mrow><mi>n</mi><mo>,</mo><mn>5</mn></mrow></msub><mo>)</mo></mrow></mrow></math>]]></maths>,一起进行矢量量化;矢量量化采用对码本中的码字进行全搜索的方法获得最优量化码字:<img file="A2006101652460003C1.GIF" wi="641" he="110" />其中<img file="A2006101652460003C2.GIF" wi="75" he="55" />表示待量化的输入矢量,<img file="A2006101652460003C3.GIF" wi="84" he="56" />表示码本中的码字矢量,C表示码本,i是码字矢量在码本中的索引值,Er()函数表示特定的失真测度,这里采用最小加权均方误差,即<![CDATA[ <math><mrow><mi>Er</mi><mrow><mo>(</mo><mover><mi>Vbp</mi><mo>&OverBar;</mo></mover><mo>,</mo><msub><mover><mi>Vbp</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mn>5</mn></munderover><msub><mi>W</mi><mi>k</mi></msub><msup><mrow><mo>(</mo><msub><mi>Vbp</mi><mi>k</mi></msub><mo>-</mo><msub><mi>Vbp</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></math>]]></maths>,其中Vbp<sub>k</sub>为待量化矢量的第k个分量,Vbp<sub>i,k</sub>为码本中第i个码字矢量的第k个分量,W为加权因子向量,这里取W=[16,8,4,2,1];量化后得到量化的各子带的浊音隶属度<img file="A2006101652460003C5.GIF" wi="96" he="64" />(11)将步骤(10)中得到的各子带的浊音隶属度、步骤(3)中的余量谱幅度参数以及步骤(5)中的基音周期参数一起用来合成激励信号。
地址 100084北京市100084信箱82分箱清华大学专利办公室
您可能感兴趣的专利