一种自适应的语音端点检测方法,申请号CN200810116450.1-传众专利搜索

发明名称	一种自适应的语音端点检测方法
摘要	本发明涉及自动字幕生成系统中的语音检测技术，具体涉及一种自适应的语音端点监测方法。该方法将音频采样序列分成固定长度的帧，并形成一个帧序列，针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；根据音频特征参数计算每一帧数据的短时能频值，并形成一个短时能频值序列；从第一帧数据开始，分析短时能频值序列，并找出一对语音起点和终点；分析背景噪声，如果发现背景噪声发生改变，则重新计算背景噪声的音频特征参数，并更新短时能频值序列；重复此过程直到检测结束。本发明可以在背景噪声经常发生变化的情况下，对连续语音进行语音端点检测，从而提高在复杂噪声背景下的语音端点检测效率。
申请公布号	CN101625857B	申请公布日期	2012.05.09
申请号	CN200810116450.1	申请日期	2008.07.10
申请人	新奥特(北京)视频技术有限公司	发明人	李祺;马华东;郑侃彦;韩忠涛;张婷
分类号	G10L11/00(2006.01)I;G10L11/02(2006.01)I;G10L15/04(2006.01)I	主分类号	G10L11/00(2006.01)I
代理机构	北京天悦专利代理事务所(普通合伙) 11311	代理人	田明;任晓航
主权项	一种自适应的语音端点检测方法，包括如下步骤：(1)音频数据输入后，解析音频文件并提取数字采样值，对获取到的音频采样序列进行带通滤波；(2)将音频采样序列分成固定长度的帧，并形成一个帧序列，针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；(3)根据上述音频特征参数计算每一帧数据的短时能频值，并形成一个短时能频值序列；第i帧的短时能频值为：EZE‑featurei＝(Ei‑Eb)·(Zi‑Zb)·(Hi‑Hb)其中，EZE‑featurei表示第i帧的短时能频值；Ei、Zi和Hi分别表示第i帧的短时能量、短时过零率和短时信息熵；Eb、Zb和Hb分别表示当前背景噪声的短时能量、短时过零率和短时信息熵；(4)分析短时能频值序列，并找出一对语音起点和终点；(5)分析背景噪声，如果发现背景噪声发生改变，则重新计算背景噪声的音频特征参数，并更新短时能频值序列；(6)返回步骤(4)，继续寻找下一对语音起点和终点，重复此过程直到检测结束，并输出语音端点检测结果。
地址	100080 北京市海淀区西草场1号北京硅谷电脑城15层1501-1506室