一种多方通话的多模式语音合成方法与系统,申请号CN201510593624.3-传众专利搜索

发明名称	一种多方通话的多模式语音合成方法与系统
摘要	本发明提供了一种多方通话的多模式语音合成方法与系统以及多方电话通话服务器，所述方法包括解码、统一的重新采样、静音检测、语音合成、回声消除、编码等步骤，其中语音合成按照检测到的非静音的语音信号的路数不同而设置不同的语音合成模式。本发明不仅可以消除溢出现象，而且通过对各个通话方的发言情况进行统计分析，从而根据实际情况提出了个性化的混音处理方案，并且最大程度的保持了各路语音信号的原本特征，算法简单、混音速度快，且不会引入严重的噪声，实现了高质量的多方通话。
申请公布号	CN105304079A	申请公布日期	2016.02.03
申请号	CN201510593624.3	申请日期	2015.09.14
申请人	上海可言信息技术有限公司	发明人	周肖宇
分类号	G10L13/02(2013.01)I;G10L19/008(2013.01)I;G10L21/02(2013.01)I;G10L25/69(2013.01)I;G10L25/72(2013.01)I;H04M9/08(2006.01)I;H04M7/00(2006.01)I;H04M3/58(2006.01)I	主分类号	G10L13/02(2013.01)I
代理机构	深圳市盈方知识产权事务所(普通合伙) 44303	代理人	杨贤
主权项	一种多方通话的多模式语音合成方法，其特征在于所述方法包括如下步骤：步骤10，对经由通信网络从各个通话方客户端接收的M路语音信号进行解码，得到M路解码后的语音信号，其中每一路解码后的语音信号记为a<sub>i</sub>，其中M为大于等于1的整数，i为大于等于1且小于等于M的整数；步骤20，对所述M路解码后的语音信号a<sub>i</sub>进行Q位的统一的重新采样，得到M路采样后的语音信号，其中采样后的语音信号记为b<sub>i</sub>；步骤30，将所述M路采样后的语音信号中的每一路b<sub>i</sub>，以音频帧为单位，同步进行静音检测，其中，在第j帧获得的非静音的语音信号记为b<sub>s</sub>(j)，在第j帧获得的非静音的语音信号的路数记为N，其中N为大于等于0且小于等于M的整数，s为大于等于1且小于等于N的整数；步骤40，如果N为0，则返回步骤30；如果N为1，则进入步骤50；如果N等于2，则进入步骤60；如果N大于等于3，则进入步骤70；步骤50，采用第一语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第一语音合成结果C<sub>1</sub>(j)，然后进入步骤80；其中步骤50中的采用第一语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第一语音合成结果C<sub>1</sub>(j)具体为：采用公式一获得第j帧的第一语音合成结果C<sub>1</sub>(j)，其中，Q为步骤20中的统一的重新采用的位数：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>C</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mo>-</mo><msup><mn>2</mn><mrow><mi>Q</mi><mo>-</mo><mn>1</mn></mrow></msup><mo>,</mo><msub><mi>b</mi><mi>s</mi></msub><mo>(</mo><mi>j</mi><mo>)</mo><mo><</mo><mo>-</mo><msup><mn>2</mn><mrow><mi>Q</mi><mo>-</mo><mn>1</mn></mrow></msup></mtd></mtr><mtr><mtd><mrow><msub><mi>b</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>,</mo><mo>-</mo><msup><mn>2</mn><mrow><mi>Q</mi><mo>-</mo><mn>1</mn></mrow></msup><mo>≤</mo><msub><mi>b</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>≤</mo><msup><mn>2</mn><mrow><mi>Q</mi><mo>-</mo><mn>1</mn></mrow></msup><mo>-</mo><mn>1</mn></mrow></mtd></mtr><mtr><mtd><msup><mn>2</mn><mrow><mi>Q</mi><mo>-</mo><mn>1</mn></mrow></msup><mo>-</mo><mn>1</mn><mo>,</mo><msub><mi>b</mi><mi>s</mi></msub><mo>(</mo><mi>j</mi><mo>)</mo><mo>></mo><msup><mn>2</mn><mrow><mi>Q</mi><mo>-</mo><mn>1</mn></mrow></msup><mo>-</mo><mn>1</mn></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000802347120000011.GIF" wi="765" he="255" /></maths> 公式一步骤60，采用第二语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第二语音合成结果C<sub>2</sub>(j)，然后进入步骤80；其中步骤60中的采用第二语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第二语音合成结果C<sub>2</sub>(j)具体为：采用公式二获得第j帧的第二语音合成结果C<sub>2</sub>(j)，其中，公式二中的权重W<sub>s</sub>(j)采用公式三获得，\|b<sub>s</sub>(j)\|为在第j帧获得的第s路非静音的语音信号的信号强度，F<sub>s</sub>为在第j帧获得的第s路非静音的语音信号在其第1到第j帧中的非静音帧的数量，α为信号强度权重系数，β为非静音帧数量权重系数，α+β＝1，α和β分别为正数：<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>C</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>s</mi><mo>=</mo><mn>1</mn></mrow><mn>2</mn></munderover><msub><mi>W</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo></mo><msub><mi>b</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000802347120000012.GIF" wi="484" he="135" /></maths> 公式二<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>W</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mi>α</mi><mo></mo><mfrac><mrow><mo>\|</mo><msub><mi>b</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>\|</mo></mrow><mrow><mo>\|</mo><munderover><mo>Σ</mo><mrow><mi>s</mi><mo>=</mo><mn>1</mn></mrow><mn>2</mn></munderover><msub><mi>b</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>\|</mo></mrow></mfrac><mo>+</mo><mi>β</mi><mo></mo><mfrac><msub><mi>F</mi><mi>s</mi></msub><mrow><munderover><mo>Σ</mo><mrow><mi>s</mi><mo>=</mo><mn>1</mn></mrow><mn>2</mn></munderover><msub><mi>F</mi><mi>s</mi></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000802347120000021.GIF" wi="661" he="223" /></maths> 公式三步骤70，采用第三语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第三语音合成结果C<sub>3</sub>(j)，然后进入步骤80，其中步骤70中的采用第三语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第三语音合成结果C<sub>3</sub>(j)具体包括；步骤71，将所述N路非静音的语音信号按照信号强度进行排序；步骤72，选取信号强度最大的前P路非静音的语音信号采用公式四获得第三语音合成结果C<sub>3</sub>(j)，剩余的N‑P路非静音的语音信号不参与语音合成，即剩余的N‑P路非静音的语音信号的权重W<sub>s</sub>(j)为0，其中P为大于2且小于N的整数，其中，公式四中的权重W<sub>s</sub>(j)采用公式五获得，\|b<sub>s</sub>(j)\|为在第j帧获得的第s路非静音的语音信号的信号强度，F<sub>s</sub>为在第j帧获得的第s路非静音的语音信号在其第1到第j帧中的非静音帧的数量，α为信号强度权重系数，β为非静音帧数量权重系数，α+β＝1，α和β分别为正数：<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>C</mi><mn>3</mn></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>s</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>W</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo></mo><msub><mi>b</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000802347120000022.GIF" wi="485" he="134" /></maths> 公式四<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mi>W</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mi>α</mi><mo></mo><mfrac><mrow><mo>\|</mo><msub><mi>b</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>\|</mo></mrow><mrow><mo>\|</mo><munderover><mo>Σ</mo><mrow><mi>s</mi><mo>=</mo><mn>1</mn></mrow><mi>P</mi></munderover><msub><mi>b</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>\|</mo></mrow></mfrac><mo>+</mo><mi>β</mi><mo></mo><mfrac><msub><mi>F</mi><mi>s</mi></msub><mrow><munderover><mo>Σ</mo><mrow><mi>s</mi><mo>=</mo><mn>1</mn></mrow><mi>P</mi></munderover><msub><mi>F</mi><mi>s</mi></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000802347120000023.GIF" wi="662" he="222" /></maths> 公式五步骤80，将第一语音合成结果、第二语音合成结果或者第三语音合成结果减去各个通话方客户端的语音数据后，再进行回声消除处理，得到各个通话方客户端的输出语音信号；步骤90，将各个通话方客户端的输出语音信号按照各个通话方客户端的编码方式进行编码后传输到相应的各个通话方客户端。
地址	200120 上海市浦东新区张杨路400号源一大厦D101