一种伪装声音的识别方法及装置,申请号CN201310728591.X-传众专利搜索

发明名称	一种伪装声音的识别方法及装置
摘要	本发明公开一种伪装声音的识别方法及装置，该识别方法是利用语音的基频特性估计语音转换的系数，并对Mel频率倒谱系数提取算法进行了改进，即利用线性插值伸缩将估计的系数整合到Mel频率倒谱系数提取算法中，使其能近似计算出转换语音在转换前的Mel频率倒谱系数。最后，将以上方法整合到GMM‑UBM（高斯混合模型‑一致背景模型）识别框架中，计算语音之间的相似度。同时，还能利用该估计的转换系数将转换后的语音还原为原语音。本发明在识别性能上相比常规识别取证方法有极大的提高，漏检和虚警皆比常规的方案要低。
申请公布号	CN103730121B	申请公布日期	2016.08.24
申请号	CN201310728591.X	申请日期	2013.12.24
申请人	中山大学;深圳大学	发明人	王泳;黄继武
分类号	G10L17/04(2013.01)I	主分类号	G10L17/04(2013.01)I
代理机构	广州粤高专利商标代理有限公司 44102	代理人	林丽明
主权项	一种伪装声音的识别方法，其特征在于，所述方法包括：在训练阶段，利用最大期望值EM算法从背景语音库中计算一致背景模型UBMλ<sub>bkg</sub>；在训练阶段，提取说话人j的测试语音S<sub>j</sub>的Mel倒谱系数MFCC及基频，利用最大后验概率MAP算法计算说话人j的高斯混合模型GMMλ<sub>j</sub>，计算基频平均值f<sub>j</sub>；建立说话人j的模型V<sub>j</sub>＝(λ<sub>j</sub>,f<sub>j</sub>)，并存储在模型数据库中；在训练阶段获得阈值θ，阈值θ获取方法：计算客户分数及假冒者分数，利用这两类分数的分布选择阈值θ以达到符合应用要求的漏检率和虚警率，其中客户分数Client Scores，是说话人语音片段在说话人模型下的概率，假冒者分数Imposter Scores，是说话人语音片段在其它说话人模型下的概率；在测试阶段，语音Y为经过转换后的语音，提取语音Y的基频平均值f<sub>Y</sub>；利用f<sub>Y</sub>/f<sub>j</sub>计算转换系数；利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X；经基于GMM‑UBM的概率估计算法得出Y为模型V<sub>j</sub>的概率Λ(X)；比较概率Λ(X)与阈值θ，若所得概率大于阈值θ则语音Y为j所说片段；否则语音Y不为j所说；其中所述改进型MFCC提取算法具体为：在MFCC提取算法中的加窗和FFT变换之后，对FFT系数的幅值\|F(k)\|进行线性插值伸缩得出\|F(k′)\|，FFT系数的幅值线性插值伸缩如下公式所示：\|F(k′)\|＝μ\|F(k)\|+(1‑μ)\|F(k+1)\| 0≤k<N/2 0≤k′<N/2<img file="FDA0000939905080000011.GIF" wi="302" he="71" />μ＝k′/(1/α′)‑k其中1/α′为估计的转换系数的倒数，α′为估计的转换系数，α′＝f<sub>Y</sub>/f<sub>j</sub>。
地址	510275 广东省广州市新港西路135号中山大学