发明名称 连续长语音识别方法及系统、硬件设备
摘要 本发明涉及语言信号识别技术领域,提供一种连续长语音识别方法及系统、硬件设备,以解决在连续长语音识别过程中,大段语音造成服务器缓冲区溢出的问题,该方法包括:按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型;对于各个正常语音帧后的首个静音帧,计算连续的静音帧的总静音时间,如果总静音时间大于预设停顿时间阈值,则将所述连续的静音帧设置为停顿状态,分别将两个连续停顿状态之间的信号顺序保存在各个切片中。本发明提出的技术方案快速准确的将长语音切断成短语句切片,并在执行过程中丢弃长段不影响语音识别准确率的静音包,最后分段对各个切片进行识别,有效避免了大段语音造成服务器缓冲区溢出问题。
申请公布号 CN105719642A 申请公布日期 2016.06.29
申请号 CN201610111643.2 申请日期 2016.02.29
申请人 黄博 发明人 黄博;张国兴
分类号 G10L15/04(2013.01)I;G10L25/87(2013.01)I 主分类号 G10L15/04(2013.01)I
代理机构 四川省成都市天策商标专利事务所 51213 代理人 罗韬
主权项 一种连续长语音识别方法,其特征在于包括步骤:A、初始化缓冲区,设置分帧时间长度、停顿时间阈值;B、将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理;C、按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型,所述信号类型包括正常语音帧和静音帧;D、对于各个正常语音帧后的首个静音帧,计算连续的静音帧的总静音时间,如果总静音时间大于预设停顿时间阈值,则将所述连续的静音帧设置为停顿状态,分别将两个连续停顿状态之间的语音信号保存在各个切片中,并在各个切片中追加一段静音帧;E、分别对各个切片进行识别。
地址 621000 四川省绵阳市高新技术产业开发区永兴镇前进街1组