发明名称 一种基于实时解码的语音端点检测方法
摘要 一种基于实时解码的语音端点检测方法,步骤为:输入语音识别相关文本,解析文本;根据文本解析结果构建解码网络;输入语音,提取语音中的声学特征,基于构建的解码网络对所述声学特征进行解码,得到解码后的语音单元序列;对解码后的语音单元序列进行语音端点判断,判断是否是语音端点,所述语音端点分为语音开始点和语音结束点;如果判断结果是语音结束点,则把语音结束点信息反馈给外部外部应用系统,否则继续第二步;在第三步中语音开始点判断是可选的,如果外部外部应用系统不关心语音开始点,则不判断语音开始点。本发明解决了在语音识别文本确定的情况下,传统端点检测技术表现出来的实时性不高,无法对用户关心的语音进行针对性检测问题。
申请公布号 CN102982811B 申请公布日期 2015.01.14
申请号 CN201210483046.4 申请日期 2012.11.24
申请人 安徽科大讯飞信息科技股份有限公司 发明人 吴玲;王兵;赵乾;潘颂声;何春江;朱群
分类号 G10L25/87(2013.01)I 主分类号 G10L25/87(2013.01)I
代理机构 北京科迪生专利代理有限责任公司 11251 代理人 成金玉
主权项 一种基于实时解码的语音端点检测方法,其特征在于实现步骤如下: 第一步:输入语音识别相关文本,解析文本; 第二步:根据文本解析结果构建解码网络; 第三步:实时输入语音,提取语音中的声学特征,基于第二步构建的解码网络对所述声学特征进行解码,得到解码后的语音单元序列;所述语音单元序列中每一个单元称为一帧; 第四步:对解码后的语音单元序列进行语音端点判断,判断是否是语音端点,所述语音端点分为语音开始点和语音结束点;如果判断结果是语音结束点,则把语音结束点信息反馈给外部应用系统,否则继续第三步;在第四步中语音开始点判断是可选的,如果外部应用系统不关心语音开始点,则不判断语音开始点; 所述第四步中的语音开始点判断如下: (1.1)取解码器中的最优路径; (1.2)语音开始点预警,即根据解码器中的最优路径,判断当前语音文本是否可能达到语音开始点,如果是,进行步骤(1.3),否则结束判断; (1.3)确认预警,即判断语音文本中是否有文本内音素或有效的垃圾语音,通过此过程来确认当前是否真的达到语音开始点;如果是,得到开始点,否则直接退出; 所述第四步中的语音结束点判断如下: (2.1)取解码器中当前最优路径; (2.2)语音结束点预警,即根据解码器中的最优路径,判断语音文本中的最后一个音素是否可能说了,如果是,进行步骤(2.3),否则结束判断; (2.3)确认预警,即语音文本中最后一个音素是否真的说过了,通过帧长,帧平均似然度指标来决策,如果判断为真的说了,则得到语音结束点,结束流程,否则直接结束。 
地址 230088 安徽省合肥市高新开发区望江西路666号