发明名称 一种噪声功率谱估计与语音活动性检测方法
摘要 本发明涉及一种噪声功率谱估计与语音活动性检测方法,该方法基于一阶回归的序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,最终推演出语音的在这个频率子带上的出现概率和噪声的功率谱信息,1)对于语音信号在每一个频率分量上提取对数幅度谱包络,并建立一个对应的二元隐马尔可夫模型,每一个状态均由高斯分布表示;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,采用极大似然估计算法建立一个初始化的模型;3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学的方法,逐帧更新每一频带的HMM模型,依次递推得到噪声值和语音信号的出现概率。
申请公布号 CN102800322A 申请公布日期 2012.11.28
申请号 CN201110141137.5 申请日期 2011.05.27
申请人 中国科学院声学研究所;北京中科信利技术有限公司 发明人 应冬文;颜永红;付强;潘接林;李军锋
分类号 G10L21/02(2006.01)I;G10L17/00(2006.01)I 主分类号 G10L21/02(2006.01)I
代理机构 北京法思腾知识产权代理有限公司 11318 代理人 杨小蓉;高宇
主权项 一种噪声功率谱估计与语音活动性检测方法,该方法基于一阶回归的序贯隐马尔可夫模型SHMM描述语音在每一频率分量上的时序相关性,并采用增量学习的方式来逐步更新SHMM,最终,推演出语音的在这个频率子带上的出现概率和噪声的功率谱信息,以准确反映语音的时序统计特征,该方法包括下列步骤:1)对于语音信号在每一个频率分量上提取对数幅度谱包络,并建立一个对应的二元隐马尔可夫模型,其中,一个分量表示语音能量的分布,另一个分量是噪声能量的分布,每一个状态均由高斯分布表示;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,采用极大似然估计算法建立一个初始化的模型;3)在得到初始化的模型λM之后,从第M+1帧开始,采用增量学习的方法,逐帧更新每一频带的HMM模型,依次递推得到噪声值和语音信号的出现概率。
地址 100190 北京市海淀区北四环西路21号