基于基音同步频谱参数的语音识别系统和方法,申请号CN201510114134.0-传众专利搜索

发明名称	基于基音同步频谱参数的语音识别系统和方法
摘要	本发明定义了一种基于基音同步的语音识别系统和方法。语音信号首先经过一个确定基音周期标志的程序，来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个处理单元，以对整个的语音信号产生出一组完整的分割点。根据分割点，语音信号被分割成与基音同步的而且互不重叠的帧。一个程序把每一帧的两个端点的数值做成等值。使用傅立叶分析，每个帧中的语音信号被转换为基音同步振幅频谱，然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色的单位矢量，称为音色矢量。这些音色矢量然后与数据库中的音色矢量相比，找到最可能的音素序列。然后可能的音素序列被送到语言解码器，找出最可能的文本。
申请公布号	CN104934029A	申请公布日期	2015.09.23
申请号	CN201510114134.0	申请日期	2015.03.16
申请人	陈成钧	发明人	陈成钧
分类号	G10L13/08(2013.01)I;G10L15/04(2013.01)I	主分类号	G10L13/08(2013.01)I
代理机构	北京天悦专利代理事务所(普通合伙) 11311	代理人	田明;张海秀
主权项	一种自动语音识别的方法，使用一个或多个处理器，通过以下步骤把语音信号转换成文本：A)把语音信号分割成基音同步帧，其中浊音部分的每个帧是一个基音周期；B)对每一个帧，用端点匹配方法使波形的两端均衡；C)用傅立叶分析生成每个帧的振幅频谱；D)用Laguerre函数把振幅频谱转化成音色矢量；E)进行声学解码，把每个音色矢量与音色矢量数据库进行比较，找到最可能的音素或子音素单元序列；F)进行语言解码，把最可能的音素序列和一个语言模型数据库相比较，找出最可能的文本；其中语音信号的分割是使用非对称窗对语音信号进行分析：a)对于说话者进行测试，找出非对称窗的最佳尺寸；b)把语音信号与该非对称窗进行卷积，形成一个轮廓函数；c)取轮廓函数的最大值所在时间点为分割点；d)把分割点扩展到清音段和无声段。
地址	美国白原市