发明名称 一种基于张量分解的语音信号特征提取方法
摘要 本发明公开了一种基于张量分解的语音信号特征提取方法,属于语音信号处理技术领域。将分帧后的语音信号进行多层小波分解,对小波分解后得到的多个分量信息分别提取美尔频谱倒谱系数及所对应的一阶差分系数和二阶差分系数组成特征参数矢量,建立三阶语音张量,并对其进行张量分解,计算分量信息阶、特征参数阶上的特征投影,矩阵化后的结果就是语音信号各帧携带的特征。本方法相比传统特征参数增强了对语音信号的表征能力,获取携带较全面语音信号的特征,能够提高语音识别、说话人识别等语音信号处理系统的效果。
申请公布号 CN103117059A 申请公布日期 2013.05.22
申请号 CN201210579491.0 申请日期 2012.12.27
申请人 北京理工大学 发明人 杨立东;王晶
分类号 G10L15/02(2006.01)I;G10L19/032(2013.01)I 主分类号 G10L15/02(2006.01)I
代理机构 代理人
主权项 一种基于张量分解的语音信号特征提取方法,其特征在于,包含如下步骤: 步骤一:对待处理的语音信号采用汉明窗进行分帧,帧长为L,帧移为M,从而把语音信号分成N帧,顺序排列后得到帧序列; 步骤二:对分帧后的每帧语音信号分别进行R层小波分解,每帧语音信号R层小波分解后得到(R+1)个分量信息; 步骤三:对每帧语音信号的各个分量信息分别进行短时傅里叶变换,获得每个分量信息的频谱; 求出每个分量信息频谱幅度的平方即得到各分量信息的能量谱,使各分量信息的能量谱通过美尔频率滤波器组得到各分量信息的Mel频谱; 对得到的Mel频谱分别取自然对数,得到各分量信息的对数频谱; 对每个分量信息的对数频谱再经过离散余弦变换到倒频谱域,从而获得每个分量信息的长度为B的美尔频谱倒谱系数,即MFCC;所述B为预设值; 求出各分量信息的MFCC所对应的一阶差分系数和二阶差分系数,它们的长度分别也是B; 对每个分量信息,将其MFCC、MFCC的一阶差分系数、MFCC的二阶差分系数相接组成一维矢量,即组成该分量信息的长度为S=B+B+B的特征参数矢量; 步骤四:对每帧语音信号,将其每个分量信息的特征参数矢量排列成一个大小为(R+1)×S的矩阵,该矩阵的行数对应步骤二中R层小波分解后得到的分量个数,矩阵的列数对应为步骤三中得到的特征参数矢量的长度S,即矩阵每行表示该帧语音信号一个分量信息的长度为S的特征参数矢量,那么按照语音信号的帧顺序,就构成了一个帧序列个数N×每帧分量信息个数(R+1)×特征参数长度S的三阶语音张量X,所述的三阶分别称为帧序列阶、分量信息阶、特征参数阶; 步骤五:对步骤四构造的三阶语音张量X进行张量分解,分解后表示为:G×1U(1)×2U(2)×3U(3),其中G为核张量;U(1)、U(2)、U(3)彼此之间正交,U(1)、U(2)、U(3)代表语音张量分别在帧序列、分量信息、特征参数对应各阶上的主分量;即U(1)为该语音张量分解时在帧序列阶的投影矩阵,且本方法不对帧序列阶进行低秩近似,U(2)为该语音张量分解时在分量信息阶进行秩为P的低秩投影矩阵, 其中参数P应满足1≤P≤R+1,U(3)为语音张量分解时在特征参数阶进行的秩为Q的低秩投影矩阵,其中参数Q应满足1≤Q≤S; ×1、×2、×3分别表示张量第一阶、第二阶、第三阶的张量矩阵乘,张量矩阵乘定义如下:设有一个大小为I1×I2×…×IN的N阶张量H,一个大小为J×In的矩阵A,则张量的n阶(1≤n≤N)矩阵乘为H×nA的结果是一个大小为I1×I2×…×In‑1×J×In+1×…×IN的N阶张量; 步骤六:计算语音张量X在分量信息阶上的特征投影Y=X×2U(2),U(2)为步骤五中语音张量X分解时在分量信息阶进行秩为P的低秩投影矩阵,Y为语音张量X在第二阶即分量信息阶进行张量矩阵乘X×2U(2)的结果,即是X在分量信息阶上进行秩为P的低秩投影的结果; 步骤七:计算语音张量X在特征参数阶的特征投影Z=Y×3U(3),U(3)为步骤五中语音张量X分解时在特征参数阶进行的秩为Q的低秩投影矩阵,Z为步骤六中得到的特征投影Y在第三阶即特征参数阶进行张量矩阵乘Y×3U(3)的结果,即语音张量X在分量信息阶上进行秩为P的低秩投影后,又在特征参数阶上进行秩为Q的低秩投影的结果; 步骤八:对步骤七获得的张量Z进行张量的矩阵化,得到大小为N×W的矩阵,W为P与Q的乘积;即矩阵的行数为语音信号帧的个数N,矩阵的列数为语音张量X分解时在分量信息阶低秩投影的秩P和在特征参数阶低秩投影的秩Q的乘积; 步骤八中的张量Z矩阵化后的结果就是基于张量分解在两个不同阶即分量信息阶和特征参数阶上提取降秩后的语音信号各帧携带的特征。
地址 100081 北京市海淀区中关村南大街5号