发明名称 基于说话人模型对齐的非对称语音库条件下的语音转换方法
摘要 本发明提出了一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,首先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的参数找到源说话人特征向量和辅助向量之间的转换函数、辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用了说话人模型对齐的方法,并且为了进一步提升语音转换的效果,还采用了将说话人模型对齐与高斯混合模型相融合的方法。实验结果表明:本发明在频谱失真度和相关度、转换语音的质量和相似度上,都取得了比传统基于INCA的语音转换方法更好的效果。                                                                                                                                     
申请公布号 CN104217721A 申请公布日期 2014.12.17
申请号 CN201410399475.2 申请日期 2014.08.14
申请人 东南大学 发明人 宋鹏;赵力;金赟
分类号 G10L17/04(2013.01)I;G10L13/08(2013.01)I 主分类号 G10L17/04(2013.01)I
代理机构 江苏永衡昭辉律师事务所 32250 代理人 王斌
主权项 一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,其特征在于:针对非对称语音库的情况,通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数,即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数,以及辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用说话人模型对齐的方法,以及将说话人模型对齐与高斯混合模型相融合的方法,最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音。
地址 210096 江苏省南京市四牌楼2号