发明名称 用于检测语音段的方法
摘要 本发明涉及一种用于检测数字音频输入信号中的噪音段和语音段的方法,所述输入信号被分为多个帧,本方法包括:-第一阶段(10),其中,如果帧与之前N个帧的平均能量值不大于第一能量阈值,则进行将所述帧并分类成噪音的第一分类,N>1;-第二阶段(20),其中,针对在第一阶段中没有被分类成噪音的每个帧,基于结合至少第一标准、第二标准和第三标准来判定将所述帧分类为噪音还是分类为语音,第一标准是关于帧与声学的噪音模型和语音模型的频谱相似性,第二标准是关于对帧的能量的分析,而第三标准是关于持续时间,包括:使用状态机,用于根据对声学相似性大于第一声学阈值的确定数目的连续帧的累加来检测段的开始,以及用于检测所述段的结束;-第三阶段(30),其中,使用关于持续时间的标准来审查在第二阶段中进行的将信号帧分类成语音或分类成噪音的分类。
申请公布号 CN102687196B 申请公布日期 2014.05.07
申请号 CN201080050560.8 申请日期 2010.10.07
申请人 西班牙电信公司 发明人 卡洛斯·加西亚马丁内斯;海伦卡·杜先斯巴罗贝斯;毛里西奥·赛德拉维申斯;大卫·卡德纳斯桑切斯
分类号 G10L25/78(2013.01)I 主分类号 G10L25/78(2013.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 王萍;李春晖
主权项 一种用于检测数字音频输入信号中的噪音段和语音段(2)的方法,所述输入信号被分为多个帧(1),所述方法包括:‑第一阶段(10),其中,如果帧与之前N个帧的平均能量值不大于第一能量阈值(threshold_energ1),则进行将所述帧分类成噪音的第一分类,N为大于1的整数;‑第二阶段(20),其中,针对在所述第一阶段中没有被分类成噪音的每个帧,基于结合至少第一标准、第二标准和第三标准来判定将所述帧分类为噪音还是分类为语音,所述第一标准是关于帧与声学的噪音模型和语音模型的频谱相似性,所述第二标准是关于相对于第二能量阈值(threshold_energ2)对所述帧的能量的分析,而所述第三标准是关于持续时间,包括:使用状态机,用于根据对声学相似性大于第一声学阈值(threshold_ac1)的确定数目的连续帧的累加来检测段的开始,以及用于根据声学相似性小于所述第一声学阈值的另一确定数目的连续帧的累加来检测所述段的结束,其中,所述状态机包括至少初始状态(210)、其中检查到语音段已经开始的状态(220)、其中检查到语音段持续的状态(230)以及其中检查到语音段已经结束的状态(240);其中,在所述第二阶段中,针对在所述第一阶段中没有被分类成噪音的每个帧:‑通过以下方式来计算帧是噪音帧的概率:将所述帧的频谱特性与被分类为噪音但不属于正被分析的信号的一组帧的相同的频谱特性进行比较;‑通过以下方式来计算帧是语音帧的概率:将所述帧的频谱特性与被分类为语音但不属于正被分析的信号的一组帧的相同的频谱特性进行比较;‑根据至少帧是语音帧的概率与帧是噪音帧的概率之间的比,以及所述状态机的当前状态,来计算所述状态机的下一状态;以及‑第三阶段(30),其中,使用持续时间的标准来审查在所述第二阶段中进行的将所述信号帧分类成语音或分类成噪音的所述分类,将持续时间小于第一最小段持续时间阈值的语音段、以及不包括确定数目的同时超过所述第一声学阈值和所述第二能量阈值的连续帧的语音段分类成噪音,其中,针对其中检查到语音段已经开始的状态(220)与其中检查到语音段持续出现的状态(230)之间的转变,需要如下的至少两个连续的帧:其中帧是语音帧的概率与帧是噪音帧的概率之间的比大于所述第一声学阈值。
地址 西班牙马德里