发明名称 一种伪装声音的识别方法及装置
摘要 本发明公开一种伪装声音的识别方法及装置,该识别方法是利用语音的基频特性估计语音转换的系数,并对Mel频率倒谱系数提取算法进行了改进,即利用线性插值伸缩将估计的系数整合到Mel频率倒谱系数提取算法中,使其能近似计算出转换语音在转换前的Mel频率倒谱系数。最后,将以上方法整合到GMM‑UBM(高斯混合模型‑一致背景模型)识别框架中,计算语音之间的相似度。同时,还能利用该估计的转换系数将转换后的语音还原为原语音。本发明在识别性能上相比常规识别取证方法有极大的提高,漏检和虚警皆比常规的方案要低。
申请公布号 CN103730121B 申请公布日期 2016.08.24
申请号 CN201310728591.X 申请日期 2013.12.24
申请人 中山大学;深圳大学 发明人 王泳;黄继武
分类号 G10L17/04(2013.01)I 主分类号 G10L17/04(2013.01)I
代理机构 广州粤高专利商标代理有限公司 44102 代理人 林丽明
主权项 一种伪装声音的识别方法,其特征在于,所述方法包括:在训练阶段,利用最大期望值EM算法从背景语音库中计算一致背景模型UBMλ<sub>bkg</sub>;在训练阶段,提取说话人j的测试语音S<sub>j</sub>的Mel倒谱系数MFCC及基频,利用最大后验概率MAP算法计算说话人j的高斯混合模型GMMλ<sub>j</sub>,计算基频平均值f<sub>j</sub>;建立说话人j的模型V<sub>j</sub>=(λ<sub>j</sub>,f<sub>j</sub>),并存储在模型数据库中;在训练阶段获得阈值θ,阈值θ获取方法:计算客户分数及假冒者分数,利用这两类分数的分布选择阈值θ以达到符合应用要求的漏检率和虚警率,其中客户分数Client Scores,是说话人语音片段在说话人模型下的概率,假冒者分数Imposter Scores,是说话人语音片段在其它说话人模型下的概率;在测试阶段,语音Y为经过转换后的语音,提取语音Y的基频平均值f<sub>Y</sub>;利用f<sub>Y</sub>/f<sub>j</sub>计算转换系数;利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X;经基于GMM‑UBM的概率估计算法得出Y为模型V<sub>j</sub>的概率Λ(X);比较概率Λ(X)与阈值θ,若所得概率大于阈值θ则语音Y为j所说片段;否则语音Y不为j所说;其中所述改进型MFCC提取算法具体为:在MFCC提取算法中的加窗和FFT变换之后,对FFT系数的幅值|F(k)|进行线性插值伸缩得出|F(k′)|,FFT系数的幅值线性插值伸缩如下公式所示:|F(k′)|=μ|F(k)|+(1‑μ)|F(k+1)| 0≤k&lt;N/2 0≤k′&lt;N/2<img file="FDA0000939905080000011.GIF" wi="302" he="71" />μ=k′/(1/α′)‑k其中1/α′为估计的转换系数的倒数,α′为估计的转换系数,α′=f<sub>Y</sub>/f<sub>j</sub>。
地址 510275 广东省广州市新港西路135号中山大学