一种考虑语音中多线性群组稀疏特性的情绪特征提取方法,申请号CN201210091525.1-传众专利搜索

发明名称	一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
摘要	本发明公开了一种考虑语音中多线性群组稀疏特性的情绪特征提取方法，该方法考虑语音信号中包括时间、频率、尺度和方向信息的多重因素，利用多线性群组稀疏分解的方法进行特征提取，通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征，利用群组稀疏张量分解方法求解特征投影矩阵，计算频率阶上的特征投影，经过离散余弦变换对特征去相关，最终计算特征的一阶和二阶差分系数，得到语音情绪特征。本发明考虑语音信号中的时间、频率、尺度和方向等因素用于情绪的特征提取，利用群组稀疏张量分解方法进行特征投影，最终提高了多类语音情绪识别的准确率。
申请公布号	CN102592593A	申请公布日期	2012.07.18
申请号	CN201210091525.1	申请日期	2012.03.31
申请人	山东大学	发明人	吴强;刘琚;孙建德
分类号	G10L15/02(2006.01)I;G10L19/06(2006.01)I	主分类号	G10L15/02(2006.01)I
代理机构	济南金迪知识产权代理有限公司 37219	代理人	宁钦亮
主权项	1.一种考虑语音中多线性群组稀疏特征的语音情绪特征提取方法，其特征是：考虑语音信号中包括时间、频率、尺度和方向信息的多重因素，利用多线性群组稀疏分解的方法进行特征提取，通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征，利用群组稀疏张量分解方法求解特征投影矩阵，计算频率阶上的特征投影，经过离散余弦变换对特征去相关，计算特征的一阶和二阶差分系数，具体包括以下步骤：(1)采集语音信号s(t)，利用短时傅里叶变换将s(t)变换到时频域，得到信号的时频表示S(f，t)和能量谱P(f，t)；(2)利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波，Gabor函数定义如下：<maths num="0001"><![CDATA[<math><mrow><msub><mi>g</mi><mover><mi>k</mi><mo>&OverBar;</mo></mover></msub><mrow><mo>(</mo><mover><mi>x</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mover><mi>k</mi><mo>&OverBar;</mo></mover><mn>2</mn></msup><msup><mi>σ</mi><mn>2</mn></msup></mfrac><mo>·</mo><msup><mi>e</mi><mrow><mo>-</mo><mrow><mo>(</mo><msup><mover><mi>k</mi><mo>&OverBar;</mo></mover><mn>2</mn></msup><mo>·</mo><msup><mover><mi>x</mi><mo>&OverBar;</mo></mover><mn>2</mn></msup><mo>/</mo><msup><mrow><mn>2</mn><mi>σ</mi></mrow><mn>2</mn></msup><mo>)</mo></mrow></mrow></msup><mo>·</mo><mo>[</mo><msup><mi>e</mi><mrow><mi>j</mi><mover><mi>k</mi><mo>&OverBar;</mo></mover><mo>·</mo><mover><mi>x</mi><mo>&OverBar;</mo></mover></mrow></msup><mo>-</mo><msup><mi>e</mi><mrow><mo>-</mo><mrow><mo>(</mo><msup><mi>σ</mi><mn>2</mn></msup><mo>/</mo><mn>2</mn><mo>)</mo></mrow></mrow></msup><mo>]</mo><mo>,</mo></mrow></math>]]></maths>其中：<img file="FDA0000149172750000012.GIF" wi="240" he="48" />是能量谱P(f，t)在第t帧、频率为f的元素；<img file="FDA0000149172750000013.GIF" wi="200" he="60" />是控制函数的尺度与方向的向量，j表示虚部单位，k<sub>v</sub>＝2<sup>-(v+2)/2</sup>·π，φ＝u(π/K)，u表示函数的方向，v表示函数的尺度，K表示总的方向数，σ是确定函数包络的常数，设为2π；Gabor函数对能量谱P(f，t)卷积滤波的结果是语音信号的多线性表征<img file="FDA0000149172750000014.GIF" wi="59" he="59" />这里<img file="FDA0000149172750000015.GIF" wi="49" he="59" />是一个大小为<img file="FDA0000149172750000016.GIF" wi="433" he="62" />的5阶张量，各阶分别表示时间、频率、方向、尺度和类别，然后对<img file="FDA0000149172750000017.GIF" wi="47" he="59" />的频率阶进行美尔三角窗滤波得到新的5阶张量<u>P</u>，其大小为N<sub>1</sub>×N<sub>2</sub>×N<sub>3</sub>×N<sub>4</sub>×N<sub>5</sub>，每一阶的长度为N<sub>i</sub>，i＝1，L 5；(3)对得到的多线性表征<u>P</u>进行群组稀疏张量分解，计算不同因素上的投影矩阵U<sup>(i)</sup>，i＝1，L 5，以便进行特征投影，建立以下分解模型：<u>P</u>≈<u>Λ</u>×<sub>1</sub>U<sup>(1)</sup>×<sub>2</sub>U<sup>(2)</sup>×<sub>3</sub>U<sup>(3)</sup>×<sub>4</sub>U<sup>(4)</sup>×<sub>5</sub>U<sup>(5)</sup>其中，U<sup>(i)</sup>是分解之后得到的大小为N<sub>i</sub>×K的投影矩阵，，<u>Λ</u>是对角元素为1的5阶张量，大小为K×K×K×K×K，×<sub>i</sub>表示张量i阶矩阵乘运算，其定义如下：<maths num="0002"><![CDATA[<math><mrow><msub><mrow><mo>(</mo><munder><mi>X</mi><mo>&OverBar;</mo></munder><msub><mo>×</mo><mi>i</mi></msub><mi>A</mi><mo>)</mo></mrow><mfenced open='' close=''><mtable><mtr><mtd><msub><mi>n</mi><mn>1</mn></msub><mo>,</mo><mi>L</mi></mtd><mtd><msub><mi>n</mi><mrow><mi>i</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><mi>k</mi><mo>,</mo><msub><mi>n</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>,</mo><mi>L</mi></mtd><mtd><msub><mi>n</mi><mi>M</mi></msub></mtd></mtr></mtable></mfenced></msub><mo>=</mo><munder><mi>Σ</mi><msub><mi>n</mi><mi>i</mi></msub></munder><msub><munder><mi>X</mi><mo>&OverBar;</mo></munder><mfenced open='' close=''><mtable><mtr><mtd><msub><mi>n</mi><mn>1</mn></msub><mo>,</mo><mi>L</mi></mtd><mtd><msub><mi>n</mi><mi>M</mi></msub></mtd></mtr></mtable></mfenced></msub><msub><mi>A</mi><mrow><mi>k</mi><mo>,</mo><msub><mi>n</mi><mi>i</mi></msub></mrow></msub></mrow></math>]]></maths>其中<u>X</u>表示一个大小为N<sub>1</sub>×L×N<sub>M</sub>的M阶张量，A是一个大小为N<sub>i</sub>×K的矩阵，<img file="FDA0000149172750000019.GIF" wi="143" he="56" />是张量<u>X</u>的元素，<img file="FDA0000149172750000021.GIF" wi="75" he="58" />是矩阵A的元素；(4)利用得到的对应于频域的投影矩阵U<sup>(2)</sup>对语音信号的多线性表征<u>P</u>进行特征投影：<maths num="0003"><![CDATA[<math><mrow><munder><mi>S</mi><mo>&OverBar;</mo></munder><mo>=</mo><munder><mi>P</mi><mo>&OverBar;</mo></munder><msub><mo>×</mo><mn>2</mn></msub><msubsup><mi>U</mi><mo>+</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup></mrow></math>]]></maths>其中，<img file="FDA0000149172750000023.GIF" wi="301" he="57" />是投影矩阵U<sup>(2)</sup>伪逆的非零元素组成的矩阵，×<sub>2</sub>表示矩阵<img file="FDA0000149172750000024.GIF" wi="78" he="57" />与<u>P</u>进行张量的2阶矩阵乘；(5)将时间阶固定，对获得的多线性稀疏表征<u>S</u>进行张量展开操作，得到大小为<img file="FDA0000149172750000025.GIF" wi="138" he="63" />的特征矩阵S<sub>(f)</sub>，其中<maths num="0004"><![CDATA[<math><mrow><msub><mover><mi>N</mi><mo>^</mo></mover><mn>1</mn></msub><mo>=</mo><msub><mi>N</mi><mn>2</mn></msub><mo>·</mo><msub><mi>N</mi><mn>3</mn></msub><mo>·</mo><msub><mi>N</mi><mn>4</mn></msub><mo>·</mo><msub><mi>N</mi><mn>5</mn></msub><mo>;</mo></mrow></math>]]></maths>(6)利用离散余弦变换对S<sub>(f)</sub>进行去相关，得到语音情绪特征F，计算特征的一阶和二阶差分系数得到最终的情绪特征。
地址	250100 山东省济南市历城区山大南路27号