发明名称 基于拼音韵母说话内容标准化语音情感特征选择方法
摘要 本发明公开了一种基于拼音韵母说话内容标准化语音情感特征选择方法,包括语音片段轨迹模型建立,说话内容标准化,语音表达因素与特征表现相关性的量化以及语音情感选择。该方法在建立轨迹模型的基础上量化语音表达因素与特征表现相关性,从而选择语音情感特征。本发明通过构建针对情感分类问题的语音轨迹模型,量化语音表达中各个因素与特征表现相关性,利用说话内容标准化方法,降低了语音内容等无关信息对于语音特征表现的影响,选择出含有较多情感信息的语音特征,同时具有较低的计算复杂度。
申请公布号 CN105139867A 申请公布日期 2015.12.09
申请号 CN201510493068.2 申请日期 2015.08.12
申请人 东南大学 发明人 黄永明;吴奥;章国宝
分类号 G10L25/63(2013.01)I;G10L15/02(2006.01)I 主分类号 G10L25/63(2013.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 柏尚春
主权项 一种基于拼音韵母说话内容标准化语音情感特征选择方法,其特征在于,该方法包括以下步骤:步骤1:对情感语音片段数字化后的数字语音信号X进行预处理,得到有效语音帧集合,对所述有效语音帧集合中每个语音片段X′提取一个D维的特征A,得到一个特征矩阵C:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>C</mi><mo>=</mo><mfenced open = '[' close = ']'><mtable><mtr><mtd><msub><mi>c</mi><mrow><mn>1</mn><mo>,</mo><mn>1</mn></mrow></msub></mtd><mtd><mn>...</mn></mtd><mtd><msub><mi>c</mi><mrow><mn>1</mn><mo>,</mo><mi>t</mi></mrow></msub></mtd><mtd><mn>...</mn></mtd><mtd><msub><mi>c</mi><mrow><mn>1</mn><mo>,</mo><mi>D</mi></mrow></msub></mtd></mtr><mtr><mtd><msub><mi>c</mi><mrow><mn>2</mn><mo>,</mo><mn>1</mn></mrow></msub></mtd><mtd><mn>...</mn></mtd><mtd><msub><mi>c</mi><mrow><mn>2</mn><mo>,</mo><mi>t</mi></mrow></msub></mtd><mtd><mn>...</mn></mtd><mtd><msub><mi>c</mi><mrow><mn>2</mn><mo>,</mo><mi>D</mi></mrow></msub></mtd></mtr><mtr><mtd><mn>...</mn></mtd><mtd><mn>...</mn></mtd><mtd><mn>...</mn></mtd><mtd><mn>...</mn></mtd><mtd><mn>...</mn></mtd></mtr><mtr><mtd><msub><mi>c</mi><mrow><mi>m</mi><mo>,</mo><mn>1</mn></mrow></msub></mtd><mtd><mn>...</mn></mtd><mtd><msub><mi>c</mi><mrow><mi>m</mi><mo>,</mo><mi>t</mi></mrow></msub></mtd><mtd><mn>...</mn></mtd><mtd><msub><mi>c</mi><mrow><mi>m</mi><mo>,</mo><mi>D</mi></mrow></msub></mtd></mtr><mtr><mtd><mn>...</mn></mtd><mtd><mn>...</mn></mtd><mtd><mn>...</mn></mtd><mtd><mn>...</mn></mtd><mtd><mn>...</mn></mtd></mtr><mtr><mtd><msub><mi>c</mi><mrow><mi>K</mi><mo>,</mo><mn>1</mn></mrow></msub></mtd><mtd><mn>...</mn></mtd><mtd><msub><mi>c</mi><mrow><mi>K</mi><mo>,</mo><mi>t</mi></mrow></msub></mtd><mtd><mn>...</mn></mtd><mtd><msub><mi>c</mi><mrow><mi>K</mi><mo>,</mo><mi>D</mi></mrow></msub></mtd></mtr></mtable></mfenced><mo>=</mo><mo>&lsqb;</mo><mtable><mtr><mtd><msub><mi>C</mi><mn>1</mn></msub></mtd><mtd><mn>...</mn></mtd><mtd><msub><mi>C</mi><mi>t</mi></msub></mtd><mtd><mn>...</mn></mtd><mtd><msub><mi>C</mi><mi>D</mi></msub></mtd></mtr></mtable><mo>&rsqb;</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000779937110000011.GIF" wi="1517" he="437" /></maths>其中,K为有效语音帧帧长,A表示语音片段提取的特征,D表示特征A的维数,c<sub>m,t</sub>表示特征矩阵中一个元素,C<sub>t</sub>表示特征矩阵中一个列向量,其中t为特征矩阵中列标,t=1,2,...,D,m为特征矩阵中行标,m=1,2,...,K;步骤2:把所述特征矩阵C转换为一个轨迹模型方程:C=ZB+E,其中B表示轨迹参数矩阵,E表示残差向量矩阵,Z表示负责将语音片段的时间度量归一化的设计矩阵;然后构建行数为K,列数为轨迹模型展开阶次J加1的设计矩阵Z,其中元素<img file="FDA0000779937110000012.GIF" wi="351" he="148" />v为设计矩阵行标,j为设计矩阵列标,v=1,2,...,K,j=1,2,...,J+1;步骤3:对每个语音片段,利用最大似然估计来计算轨迹参数矩阵B<sub>q</sub>:B<sub>q</sub>=(Z′<sub>q</sub>Z<sub>q</sub>)<sup>‑1</sup>Z′<sub>q</sub>C<sub>q</sub>                   (2)其中,q为语音片段编号,Z<sub>q</sub>,C<sub>q</sub>分别为第q个语音片段的设计矩阵和特征矩阵,Z′<sub>q</sub>为Z<sub>q</sub>的转置矩阵;然后计算每个语音片段的残差协方差矩阵∑<sub>q</sub>:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>&Sigma;</mi><mi>q</mi></msub><mo>=</mo><mfrac><mrow><msubsup><mi>E</mi><mi>q</mi><mo>&prime;</mo></msubsup><msub><mi>E</mi><mi>q</mi></msub></mrow><msub><mi>K</mi><mi>q</mi></msub></mfrac><mo>=</mo><mfrac><mrow><msup><mrow><mo>(</mo><msub><mi>C</mi><mi>q</mi></msub><mo>-</mo><msub><mi>Z</mi><mi>q</mi></msub><msub><mi>B</mi><mi>q</mi></msub><mo>)</mo></mrow><mo>&prime;</mo></msup><mrow><mo>(</mo><msub><mi>C</mi><mi>q</mi></msub><mo>-</mo><msub><mi>Z</mi><mi>q</mi></msub><msub><mi>B</mi><mi>q</mi></msub><mo>)</mo></mrow></mrow><msub><mi>K</mi><mi>q</mi></msub></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000779937110000013.GIF" wi="1222" he="153" /></maths>K<sub>q</sub>是第q个语音片段的帧数;步骤4:对说话内容进行标准化:选取汉语拼音中的韵母<img file="FDA0000779937110000026.GIF" wi="63" he="62" />作为参考标准p<sub>ref</sub>,将韵母<img file="FDA0000779937110000027.GIF" wi="63" he="57" />的语音片段X<sub>ref</sub>作为参考语音片段,并用轨迹模型将参考语音片段表示为{B<sub>ref</sub>,∑<sub>ref</sub>,K},需要标准化的其他音位p<sub>i</sub>的语音片段,即需要变换的语音片段X<sub>i</sub>的声学特征用轨迹模型表示为{B<sub>i</sub>,∑<sub>i</sub>,K},其中B<sub>ref</sub>表示参考语音片段X<sub>i</sub>的平均轨迹向量,∑<sub>ref</sub>表示参考语音片段X<sub>ref</sub>的残差协方差矩阵,B<sub>i</sub>表示需要变换语音片段X<sub>i</sub>的平均轨迹向量,∑<sub>i</sub>表示参考语音片段X<sub>i</sub>的残差协方差矩阵;首先根据下式进行白化转换:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msup><mi>X</mi><mi>w</mi></msup><mo>=</mo><msup><msub><mi>D</mi><mi>i</mi></msub><mrow><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac></mrow></msup><msubsup><mi>V</mi><mi>i</mi><mo>&prime;</mo></msubsup><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>-</mo><msub><mi>B</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000779937110000021.GIF" wi="1056" he="107" /></maths>其中,V<sub>i</sub>,D<sub>i</sub>分别为∑<sub>i</sub>对应的特征向量矩阵和特征值矩阵,<img file="FDA0000779937110000022.GIF" wi="132" he="107" />是白化变换,X<sup>w</sup>表示白化变换后的数据,即X<sub>i</sub>解相关数据;然后根据下式进行说话内容标准化:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msup><mi>X</mi><mi>n</mi></msup><mo>=</mo><msub><mi>V</mi><mrow><mi>r</mi><mi>e</mi><mi>f</mi></mrow></msub><msubsup><mi>D</mi><mrow><mi>r</mi><mi>e</mi><mi>f</mi></mrow><mfrac><mn>1</mn><mn>2</mn></mfrac></msubsup><msup><mi>X</mi><mi>w</mi></msup><mo>+</mo><msub><mi>B</mi><mrow><mi>r</mi><mi>e</mi><mi>f</mi></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000779937110000023.GIF" wi="1046" he="110" /></maths>X<sup>n</sup>表示X<sub>i</sub>利用参考语音片段X<sub>ref</sub>标准化后的数据,V<sub>ref</sub>,D<sub>ref</sub>分别表示∑<sub>ref</sub>对应的特征向量矩阵和特征值矩阵;步骤5:计算各个影响语音表达的因素在语音表达中与声学特征的相关性,包括:标准化后情感因素与声学特征的相关性、标准化后说话内容因素与声学特征的相关性;步骤6:相关性比较:将所有声学特征中,与情感因素的相关性大于与标准化后的说话内容因素相关性的特征作为语音情感识别特征。
地址 210096 江苏省南京市四牌楼2号