发明名称 一种自适应实现男女声切换方法
摘要 本发明公开了一种自适应实现男女声切换方法,包括以下步骤:训练时,将语音数据库的语音数据进行分段提取音频数据库的声音数据,再提取其动静态梅尔倒谱参数特征,然后将其送入深度限制波尔机网络进行语音性别学。用户使用时,采集语音信号,按照与语音数据库的语音数据相同的步骤处理后送入深度限制波尔机网络进行语音性别判别;根据性别判别结果设定变音目标,再利用时间动态规划SOLAFS算法根据变音目标对音频信号进行时长规整和重采样,最终达到自动实现男女声切换的效果。本发明能实时辨别性别并自适应设定变声目标,再进行实时变声处理,无需每次使用时手动设定参数,语音的动态判断准确。
申请公布号 CN103514883A 申请公布日期 2014.01.15
申请号 CN201310444837.0 申请日期 2013.09.26
申请人 华南理工大学 发明人 郭礼华;邓迪
分类号 G10L21/003(2013.01)I;G10L15/02(2006.01)I 主分类号 G10L21/003(2013.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 陈文姬
主权项 一种自适应实现男女声切换方法,其特征在于,包括以下步骤:(1)训练过程:(1‑1)收集语音数据库;所述语音数据库中的语音数据包括男声和女声;(1‑2)对语音数据库中的语音数据进行预处理;(1‑3)对预处理后的语音数据进行特征提取:先将预处理后的语音数据分成30ms的语音帧;对每语音帧提取12维的梅尔倒谱参数xi,其中i=1..12;将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即yi=xi‑xi‑1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态梅尔倒谱参数的语音特征;然后随机选取90帧语音数据的动静态梅尔倒谱参数的语音特征,组成当前语音数据的动静态梅尔倒谱参数的语音特征,即得到90*24维的动静态梅尔倒谱参数的语音特征矢量;(1‑4)采用基于深度限制波尔机网络进行语音性别训练学习:基于深度限制波尔机网络包括依次连接的输入层、第一隐层、第二隐层、第三隐层和输出层;基于深度限制波尔机网络形成四层网络,其中,第一层网络由输入层和第一隐层组成,输入层作为第一层网络的输入层,第一隐层作为第一层网络的输出层;第二层网络由第一隐层和第二隐层组成,第一隐层作为第二层网络的输入层,第二隐层作为第二层网络的输出层;第三层络由第二隐层和第三隐层组成,第二隐层作为第三层网络的输入层,第三隐层作为第三层网络的输出层;第四层络由第三隐层和输出层组成,第三隐层作为第四层网络的输入层,输出层作为第四层网络的输出层;每层网络的能量定义为E(v,h)=‑bv‑ch‑hWv,其中b是该层网络的输入层v的偏差,c是该层网络的输出层h的偏差,W是该层网络的输入层v和该层网络的输出层h的权重值;将步骤(1‑3)提取得到的语音特征矢量输入基于深度限制波尔机网络,作为输入层,采用吉比特采样方法根据输入层生成第一层网络的输入层的偏差、第一层网络的输出层的偏差、第一层网络的输入层和第一层网络的输出层的权重值;将当前层网络的输出层作为下一层网络的输入层,分开训练多层网络,将多层网络叠加实现深度限制波尔机网络的训练;得到各层网络的输入层的偏差、各层网络输出层的偏差、各层网络的输入层和输出层的权重值;(2)识别过程:(2‑1)采集用户的语音信号;(2‑2)对采集到的语音信号进行预处理;(2‑3)对预处理后的语音信号进行特征提取:先将预处理后的语音信号分成30ms的语音段;在每语音帧中提取12维的梅尔倒谱参数xi,其中i=1..12;将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即yi=xi‑xi‑1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态梅尔倒谱参数的语音特征;然后随机选取90帧语音信号的动静态梅尔倒谱参数的语音特征,组成当前语音信号的动静态梅尔倒谱参数的语音特征,即得到90*24维的动静态梅尔倒谱参数的语音特征矢量;(2‑3)将步骤(2‑2)得到的语音特征矢量展开成1维,利用步骤(1‑4)得到的四层网络的输入层的偏差、四层网络的输出层的偏差、四层网络的输入层和输出层的权重值,对当前90帧语音的进行性别判断,根据性别判断结果设定变音目标:如果性别判断为女,则变音目标为女声变男声;如果性别判断为男,则变音目标为男声变女声;(2‑4)根据步骤(2‑3)设定的变音目标,利用时间动态规划SOLAFS算法对语音信号进行时长规整,将时长规整后的语音信息输出。
地址 511458 广东省广州市南沙区环市大道南路25号华工大广州产研院