发明名称 基于长时特征和短时特征的重叠语音与单人语音区分方法
摘要 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。
申请公布号 CN102968986A 申请公布日期 2013.03.13
申请号 CN201210442113.8 申请日期 2012.11.07
申请人 华南理工大学 发明人 李艳雄;陈祝允;贺前华;李广隆;杜佳媛;吴伟;王梓里
分类号 G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L25/03(2013.01)I 主分类号 G10L15/02(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 蔡茂略
主权项 一种基于长时特征和短时特征的重叠语音与单人语音区分方法,其特征在于,包括如下步骤:S1读入语音:读入记录有重叠语音或单人语音的语音文件;S2语音预处理:对读入的语音文件进行预加重、分帧、加窗;S3提取短时特征:从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵;S4提取长时特征:计算短时特征矩阵的统计特征,所述统计特征包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵;S5训练高斯混合模型:采用EM算法训练四个高斯混合模型,包括单人语音的短时特征模型、单人语音的长时特征模型、重叠语音的短时特征模型、重叠语音的长时特征模型;S6模型融合判决:将短时特征矩阵和长时特征矩阵分别输入短时特征模型和长时特征模型,所述短时特征模型包括单人语音的短时特征模型和重叠语音的短时特征模型,长时特征模型包括单人语音的长时特征模型和重叠语音的长时特征模型,并将这两种模型的输出概率进行加权得到总的概率输出值,根据总的概率输出值将测试语音判为重叠语音或单人语音,实现重叠语音与单人语音的区分。
地址 510640 广东省广州市天河区五山路381号华南理工大学