发明名称 基于自适应算法的非对称语料库条件下的语音转换方法
摘要 本发明公开了一种基于自适应算法的非对称语料库条件下的语音转换方法,首先运用MAP算法利用少量训练语句从参考说话人模型中分别训练得到源说话人和目标说话人的模型。然后,利用自适应说话人模型中的参数,分别提出了高斯归一化和均值转换的方法。并且为了进一步提高转换效果,进而提出了将高斯归一化方法和均值转换融合的方法。同时,由于训练语句有限,必然影响自适应模型的准确性,本发明提出了KL散度的方法在转换时对说话人模型进行优化,主客观实验结果表明:无论是频谱失真度,还是转换语音的质量以及与目标语音的相似度。本发明提出的方法都获得了和基于对称语料库条件下的经典GMM方法可比拟的效果。
申请公布号 CN103280224B 申请公布日期 2015.09.16
申请号 CN201310146293.X 申请日期 2013.04.24
申请人 东南大学 发明人 宋鹏;包永强;赵力;刘健刚
分类号 G10L21/00(2013.01)I;G10L15/07(2013.01)I 主分类号 G10L21/00(2013.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 李玉平
主权项 一种基于自适应算法的非对称语料库条件下的语音转换方法,其特征在于:首先通过预先准备的参考说话人语句训练得到背景说话人模型;然后通过MAP自适应技术,将源说话人和目标说话人的语句分别训练得到源说话人和目标说话人模型;接着通过自适应源说话人和目标说话人模型中的均值和方差训练得到语音转换函数,在语音转换过程中,使用高斯归一化和均值转换的方法,以及高斯归一化和均值转换融合的方法;此外通过KL散度从有限的源说话人和目标说话人训练语句得到准确的说话人模型。
地址 210096 江苏省南京市玄武区四牌楼2号