发明名称 一种低信噪比下语音端点检测方法
摘要 本发明涉及一种低信噪比下语音端点检测方法,其包括:语音信号预处理、短时能零积计算、子带能量鉴别信息计算、噪声更新因子计算及帧判决。综合短时能量积和鉴别信息的互补优势,首先利用短时能零积进行判决,当遇到噪声帧与语音帧的转折帧时,再利用基于子带能量鉴别信息的方法进行复检,因此避免了因噪声幅度急剧变化和结尾语音帧被噪声淹没而导致的误检。与现有方法相比,即使在信噪比变化剧烈的情况下仍能准确快速地检测出语音的起止点,对语音信号的后续研究起了很好的铺垫作用。
申请公布号 CN103117067A 申请公布日期 2013.05.22
申请号 CN201310019031.7 申请日期 2013.01.19
申请人 渤海大学 发明人 王健;韩志艳
分类号 G10L25/87(2013.01)I;G10L25/84(2013.01)I;G10L15/20(2006.01)I 主分类号 G10L25/87(2013.01)I
代理机构 锦州辽西专利事务所 21225 代理人 李辉
主权项 1.一种低信噪比环境下的语音端点检测方法,其特征是:包括以下步骤:(1)、语音信号预处理通过麦克风输入语音信号,由处理单元采样量化后获得相应语音数据,然后进行预加重、分帧和加窗处理;(2)、短时能零积计算第<img file="2013100190317100001DEST_PATH_IMAGE001.GIF" wi="18" he="26" />帧的短时平均能量<img file="2013100190317100001DEST_PATH_IMAGE002.GIF" wi="20" he="27" />和短时平均过零率<img file="2013100190317100001DEST_PATH_IMAGE003.GIF" wi="26" he="23" />之积称为第<img file="2013100190317100001DEST_PATH_IMAGE004.GIF" wi="18" he="26" />帧语音信号的短时能零积<img file="2013100190317100001DEST_PATH_IMAGE005.GIF" wi="28" he="26" />:<img file="2013100190317100001DEST_PATH_IMAGE006.GIF" wi="108" he="32" />其中,<img file="529344DEST_PATH_IMAGE001.GIF" wi="18" he="26" />表示语音信号的第<img file="839103DEST_PATH_IMAGE001.GIF" wi="18" he="26" />帧;<img file="2013100190317100001DEST_PATH_IMAGE007.GIF" wi="117" he="46" />,<img file="2013100190317100001DEST_PATH_IMAGE008.GIF" wi="50" he="29" />是加汉明窗或矩形窗的语音信号,<img file="2013100190317100001DEST_PATH_IMAGE009.GIF" wi="18" he="22" />为帧长;<img file="2013100190317100001DEST_PATH_IMAGE010.GIF" wi="267" he="42" />;(3)、子带能量鉴别信息计算鉴别信息是用来衡量当前帧频谱分布与噪声帧频谱分布相似程度的,并采用子带能量分布代替概率分布,<img file="2013100190317100001DEST_PATH_IMAGE011.GIF" wi="26" he="30" />假设当前帧为噪声帧,<img file="2013100190317100001DEST_PATH_IMAGE012.GIF" wi="27" he="27" />假设当前帧为语音帧,鉴别信息<img file="2013100190317100001DEST_PATH_IMAGE013.GIF" wi="16" he="22" />为对数<img file="2013100190317100001DEST_PATH_IMAGE014.GIF" wi="78" he="48" />在假设<img file="2013100190317100001DEST_PATH_IMAGE015.GIF" wi="26" he="26" />下的期望,即<img file="2013100190317100001DEST_PATH_IMAGE016.GIF" wi="178" he="55" />其中,<img file="DEST_PATH_IMAGE017.GIF" wi="50" he="26" />表示噪声帧中第<img file="2013100190317100001DEST_PATH_IMAGE018.GIF" wi="16" he="21" />个子带能量所占总能量的比例;<img file="DEST_PATH_IMAGE019.GIF" wi="50" he="28" />表示当前帧中第<img file="2013100190317100001DEST_PATH_IMAGE020.GIF" wi="18" he="24" />个子带能量所占总能量的比例;<img file="DEST_PATH_IMAGE021.GIF" wi="22" he="24" />为划分的子带个数,<img file="2013100190317100001DEST_PATH_IMAGE022.GIF" wi="22" he="24" />=8~12;(4)、噪声更新因子计算利用获得的鉴别信息来计算噪声更新因子<img file="DEST_PATH_IMAGE023.GIF" wi="16" he="24" />:<img file="2013100190317100001DEST_PATH_IMAGE024.GIF" wi="125" he="63" />其中,<img file="DEST_PATH_IMAGE025.GIF" wi="51" he="27" />是常数,取值范围分别为0.8~0.9,0.2~0.3,0.2~0.3;<img file="2013100190317100001DEST_PATH_IMAGE026.GIF" wi="16" he="23" />是一个计数值,代表到当前帧为止<img file="DEST_PATH_IMAGE027.GIF" wi="43" he="22" />的连续帧的数目;(5)、帧判决取待判决语音数据前5帧作为无音片段进行处理,并规定待判决语音数据的第一帧认为是噪声帧;将计算出的每帧短时能零积与噪声门限阈值进行比较,所述噪声门限阈值按下式进行更新:<img file="2013100190317100001DEST_PATH_IMAGE028.GIF" wi="194" he="31" />其中,<img file="DEST_PATH_IMAGE029.GIF" wi="36" he="26" />代表经过第帧更新后噪声的门限阈值,<img file="2013100190317100001DEST_PATH_IMAGE030.GIF" wi="48" he="28" />代表经过第<img file="DEST_PATH_IMAGE031.GIF" wi="37" he="25" />帧更新后噪声的门限阈值,<img file="2013100190317100001DEST_PATH_IMAGE032.GIF" wi="13" he="20" />为噪声更新因子;用短时能零积法进行判决过程中当遇到噪声帧与语音帧的转折帧时,采用基于子带能量鉴别信息的方法再次进行判决,其整个判决过程如下:1)如果前一帧被判为噪声帧,且当前帧<img file="DEST_PATH_IMAGE033.GIF" wi="89" he="28" />,则此帧继续为噪声帧;2)如果前一帧被判为噪声帧,且当前帧<img file="2013100190317100001DEST_PATH_IMAGE034.GIF" wi="92" he="27" />且<img file="DEST_PATH_IMAGE035.GIF" wi="45" he="26" />,则记录该帧位置为start,然后继续计算比较后面连续6帧,如果都满足<img file="2013100190317100001DEST_PATH_IMAGE036.GIF" wi="90" he="26" />且<img file="DEST_PATH_IMAGE037.GIF" wi="48" he="25" />,则认为start为语音的起点,否则仍为噪声帧;其中<img file="2013100190317100001DEST_PATH_IMAGE038.GIF" wi="21" he="29" />为鉴别信息判决边界,是距离当前帧最近的五帧噪声的鉴别信息平均值;3)如果前一帧被判为语音帧,且当前帧<img file="DEST_PATH_IMAGE039.GIF" wi="89" he="28" />,则该帧继续为语音帧;4)如果前一帧被判为语音帧,且当前帧<img file="2013100190317100001DEST_PATH_IMAGE040.GIF" wi="91" he="28" />且<img file="DEST_PATH_IMAGE041.GIF" wi="46" he="31" />,则记录该帧位置为end,然后继续计算比较后面4帧,如果都满足<img file="2013100190317100001DEST_PATH_IMAGE042.GIF" wi="92" he="26" />且<img file="DEST_PATH_IMAGE043.GIF" wi="43" he="27" />,则认为end为语音的终点,否则仍为语音帧;5)每判决完一帧都要通过加权对噪声门限阈值进行更新:<img file="2013100190317100001DEST_PATH_IMAGE044.GIF" wi="197" he="24" />6)如果已经取完最后一帧,就结束语音的端点检测,否则继续进行上面的操作。
地址 121000 辽宁省锦州市高新技术产业区科技路19号
您可能感兴趣的专利