发明名称 基于基音同步频谱参数的语音识别系统和方法
摘要 本发明定义了一种基于基音同步的语音识别系统和方法。语音信号首先经过一个确定基音周期标志的程序,来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个处理单元,以对整个的语音信号产生出一组完整的分割点。根据分割点,语音信号被分割成与基音同步的而且互不重叠的帧。一个程序把每一帧的两个端点的数值做成等值。使用傅立叶分析,每个帧中的语音信号被转换为基音同步振幅频谱,然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色的单位矢量,称为音色矢量。这些音色矢量然后与数据库中的音色矢量相比,找到最可能的音素序列。然后可能的音素序列被送到语言解码器,找出最可能的文本。
申请公布号 CN104934029A 申请公布日期 2015.09.23
申请号 CN201510114134.0 申请日期 2015.03.16
申请人 陈成钧 发明人 陈成钧
分类号 G10L13/08(2013.01)I;G10L15/04(2013.01)I 主分类号 G10L13/08(2013.01)I
代理机构 北京天悦专利代理事务所(普通合伙) 11311 代理人 田明;张海秀
主权项 一种自动语音识别的方法,使用一个或多个处理器,通过以下步骤把语音信号转换成文本:A)把语音信号分割成基音同步帧,其中浊音部分的每个帧是一个基音周期;B)对每一个帧,用端点匹配方法使波形的两端均衡;C)用傅立叶分析生成每个帧的振幅频谱;D)用Laguerre函数把振幅频谱转化成音色矢量;E)进行声学解码,把每个音色矢量与音色矢量数据库进行比较,找到最可能的音素或子音素单元序列;F)进行语言解码,把最可能的音素序列和一个语言模型数据库相比较,找出最可能的文本;其中语音信号的分割是使用非对称窗对语音信号进行分析:a)对于说话者进行测试,找出非对称窗的最佳尺寸;b)把语音信号与该非对称窗进行卷积,形成一个轮廓函数;c)取轮廓函数的最大值所在时间点为分割点;d)把分割点扩展到清音段和无声段。
地址 美国白原市