发明名称 语音字体说话者以及韵律插值
摘要 提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值,而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型,多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数,通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪,同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体,或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。
申请公布号 CN106062867A 申请公布日期 2016.10.26
申请号 CN201580010713.9 申请日期 2015.02.23
申请人 微软技术许可有限责任公司 发明人 栾剑;L·何;M·梁
分类号 G10L13/08(2013.01)I;G10L13/033(2013.01)I 主分类号 G10L13/08(2013.01)I
代理机构 永新专利商标代理有限公司 72002 代理人 王英;刘瑜
主权项 一种对计算设备进行控制以利用来自多个源语音字体的多语音字体来渲染计算机生成的话音的方法,所述多语音字体具有与所述多个源语音字体不同的特性,所述方法包括:装载来自语音字体存储的所述多个源语音字体;将权重分配至每个源语音字体的特性;获得待被渲染成所述计算机生成的话音的文本;使用每个源语音字体来预测所述文本的特性值;使用分配至每个源语音字体的所述特性的所述权重来合并所预测的特性值,以产生经插值的特性值;以及使用所述经插值的特性值而将所述文本渲染成计算机生成的话音。
地址 美国华盛顿州