发明名称 利用基频包络剔除情感语音的说话人识别方法
摘要 本发明涉及一种利用基频包络剔除情感语音的说话人识别,在说话人识别的测试中,一段语音先提取倒谱特征和基音频率,上述两种特征是一一对应的;再根据倒谱特征在预先训练好的性别模型进行测试得到性别信息,由性别信息确定剔除法中采用的阀值;接着,按阀值选出要剔除的基频包络,再根据要剔除的基频包络里各帧的序号对倒谱特征进行剔除,得到处理后的倒谱特征;最后,对处理后的倒谱特征进行GMM系统测试。本发明有益的效果是:克服了前人的方法中需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息给系统的使用带来的不便性,并在识别性能比传统的ASR系统提高8%。
申请公布号 CN101178897B 申请公布日期 2011.04.20
申请号 CN200710157134.4 申请日期 2007.12.05
申请人 浙江大学 发明人 吴朝晖;杨莹春;黄挺
分类号 G10L17/00(2006.01)I;G10L15/02(2006.01)I;G10L15/06(2006.01)I;G10L15/08(2006.01)I;G10L15/28(2006.01)I 主分类号 G10L17/00(2006.01)I
代理机构 杭州九洲专利事务所有限公司 33101 代理人 陈继亮
主权项 一种利用基频包络剔除情感语音的说话人识别方法,其特征在于:在说话人识别的测试中,一段语音先提取倒谱特征和基音频率,上述两种特征是一一对应的;再根据倒谱特征在预先训练好的性别模型进行测试得到性别信息,由性别信息确定剔除法中采用的阀值;接着,按阀值选出要剔除的基频包络,再根据要剔除的基频包络里各帧的序号对倒谱特征进行剔除,得到处理后的倒谱特征;最后,对处理后的倒谱特征进行GMM系统测试;具体步骤如下:1)、语音信号进行预处理:主要包括采样与量化、预加重处理和加窗;2)、语音帧上的特征提取:在说话人语音上提取倒谱特征MFCC和基音频率Pitch;3)、训练说话人模型和性别模型:对测试集说话人每人训练一个GMM模型和对男女性别分别训练一个性别GMM模型;4)、情感成分剔除:对于输入测试语音的倒谱特征MFCC,先用性别模型判断测试语音的性别,再根据性别选择所使用的剔除阀值;最后根据阀值剔除基频包络均值高于阀值的包络对应帧的倒谱特征MFCC,得到处理后的倒谱特征MFCC;5)、识别:把处理后的倒谱特征MFCC输入到相关用户模型参数的GMM中,得到相似度值并根据其给用户打分。
地址 310027 浙江省杭州市西湖区浙大路38号浙江大学计算机学院曹光彪东楼505室
您可能感兴趣的专利