近端讲话人检测方法,申请号CN200480002628.X-传众专利搜索

发明名称	近端讲话人检测方法
摘要	本发明总的涉及配备有视听用户接口的噪声减小系统的领域，具体地，涉及启用视频的电信设备的视听语音活动识别系统(200b/c)，它运行一个实时嘴唇跟踪应用，该应用可以在讲话人的话音受到包括环境噪声(n(t))和周围人的话音的统计分布的背景噪声(n’(t))干扰的环境中有利地用于邻近讲话人检测算法。
申请公布号	CN100356446C	申请公布日期	2007.12.19
申请号	CN200480002628.X	申请日期	2004.01.09
申请人	索尼爱立信移动通讯股份有限公司	发明人	M·塔内达
分类号	G10L21/02(2006.01);G10L11/02(2006.01);G10L15/24(2006.01)	主分类号	G10L21/02(2006.01)
代理机构	中国专利代理(香港)有限公司	代理人	程天正;刘杰
主权项	1.一种具有视听用户接口的自动语音活动识别器的噪声减小系统，所述系统适合于运行一应用，用于组合从显示讲话人(S<sub>i</sub>)的面部的数字视频序列(v(nT))提取的视觉特征(<u>o</u><sub>v，nT</sub>)与从一个被检测的模拟音频序列(s(t))提取的音频特征(<u>o</u><sub>a，nT</sub>)，其中所述音频序列(s(t))包括所述讲话人的口头发言以及在所述讲话人(S<sub>i</sub>)的环境中的噪声和/或干扰的话音，所述噪声减小系统(200b/c)包括-用于检测所述模拟音频序列(s(t))的装置(101a)和用于根据被检测的音频序列(s(t))确定该讲话人的话音和发声的声音-音素语音特性(<u>o</u><sub>a，nT</sub>)的音频特征提取和分析装置(106b)，以及-用于检测所述视频序列(v(nT))的装置(101b’)，和视觉特征提取和分析装置(104a+b，104’+104”)，用于确定讲话人的面部的当前位置、在序列的图像中跟踪讲话人(S<sub>i</sub>)的嘴唇运动和/或面部表情，且基于所检测的嘴唇运动和/或面部表情来确定该讲话人的话音和发声的声音-音素语音特性(<u>o</u><sub>v，nT</sub>)，其特征为一个噪声减小电路(106)，其特别适合于根据分别从被检测的模拟音频序列(s(t))或者从该数字视频序列(v(nT))提取的听觉(<u>o</u><sub>a，nT</sub>)和视觉语音特性(<u>o</u><sub>v，nT</sub>)的组合来把讲话人的话音与所述背景噪声(n’(t))分离开，其提供一个语音活动指示信号<img file="C2004800026280002C1.GIF" wi="208" he="56" />该语音活动指示信号是通过从该模拟到数字变换的音频序列(s(nT))的离散信号频谱(S(k·Δf))减去所述背景噪声(n’(t))的估计的噪声功率密度谱<img file="C2004800026280002C2.GIF" wi="180" he="61" />而计算的，所述估计的噪声功率密度谱<img file="C2004800026280002C3.GIF" wi="182" he="60" />是从该模拟到数字变换的音频信号(s(nT))的离散信号频谱(S<sub>d</sub>(f))和由所述音频特征提取和分析装置(106b)和/或所述视觉特征提取和分析装置(104a+b，104’+104”)提供的音频或视听语音活动估值来计算的。
地址	瑞典隆德