发明名称 近端讲话人检测方法
摘要 本发明总的涉及配备有视听用户接口的噪声减小系统的领域,具体地,涉及启用视频的电信设备的视听语音活动识别系统(200b/c),它运行一个实时嘴唇跟踪应用,该应用可以在讲话人的话音受到包括环境噪声(n(t))和周围人的话音的统计分布的背景噪声(n’(t))干扰的环境中有利地用于邻近讲话人检测算法。
申请公布号 CN100356446C 申请公布日期 2007.12.19
申请号 CN200480002628.X 申请日期 2004.01.09
申请人 索尼爱立信移动通讯股份有限公司 发明人 M·塔内达
分类号 G10L21/02(2006.01);G10L11/02(2006.01);G10L15/24(2006.01) 主分类号 G10L21/02(2006.01)
代理机构 中国专利代理(香港)有限公司 代理人 程天正;刘杰
主权项 1.一种具有视听用户接口的自动语音活动识别器的噪声减小系统,所述系统适合于运行一应用,用于组合从显示讲话人(S<sub>i</sub>)的面部的数字视频序列(v(nT))提取的视觉特征(<u>o</u><sub>v,nT</sub>)与从一个被检测的模拟音频序列(s(t))提取的音频特征(<u>o</u><sub>a,nT</sub>),其中所述音频序列(s(t))包括所述讲话人的口头发言以及在所述讲话人(S<sub>i</sub>)的环境中的噪声和/或干扰的话音,所述噪声减小系统(200b/c)包括-用于检测所述模拟音频序列(s(t))的装置(101a)和用于根据被检测的音频序列(s(t))确定该讲话人的话音和发声的声音-音素语音特性(<u>o</u><sub>a,nT</sub>)的音频特征提取和分析装置(106b),以及-用于检测所述视频序列(v(nT))的装置(101b’),和视觉特征提取和分析装置(104a+b,104’+104”),用于确定讲话人的面部的当前位置、在序列的图像中跟踪讲话人(S<sub>i</sub>)的嘴唇运动和/或面部表情,且基于所检测的嘴唇运动和/或面部表情来确定该讲话人的话音和发声的声音-音素语音特性(<u>o</u><sub>v,nT</sub>),其特征为一个噪声减小电路(106),其特别适合于根据分别从被检测的模拟音频序列(s(t))或者从该数字视频序列(v(nT))提取的听觉(<u>o</u><sub>a,nT</sub>)和视觉语音特性(<u>o</u><sub>v,nT</sub>)的组合来把讲话人的话音与所述背景噪声(n’(t))分离开,其提供一个语音活动指示信号<img file="C2004800026280002C1.GIF" wi="208" he="56" />该语音活动指示信号是通过从该模拟到数字变换的音频序列(s(nT))的离散信号频谱(S(k·Δf))减去所述背景噪声(n’(t))的估计的噪声功率密度谱<img file="C2004800026280002C2.GIF" wi="180" he="61" />而计算的,所述估计的噪声功率密度谱<img file="C2004800026280002C3.GIF" wi="182" he="60" />是从该模拟到数字变换的音频信号(s(nT))的离散信号频谱(S<sub>d</sub>(f))和由所述音频特征提取和分析装置(106b)和/或所述视觉特征提取和分析装置(104a+b,104’+104”)提供的音频或视听语音活动估值来计算的。
地址 瑞典隆德