发明名称 基于巴氏距离最优小波包分解的语音情感特征提取方法
摘要 本发明涉及一种基于巴氏距离最优小波包分解的语音情感特征提取方法。所述方法包括面向情感分类问题的巴氏距离准则函数定义方法,最优小波包基构造方法,以及语音情感特征提取方法。该方法定义针对情感分类问题的巴氏距离准则函数用于最优小波包基的构造,在对语音信号进行最优小波包分解的基础上提取语音情感特征。本发明通过构建针对情感分类问题的小波包基对语音信号进行分析和特征提取,降低了说话人身份、语音内容等无关信息对情感识别准确度的影响,同时具有较低的计算复杂度。
申请公布号 CN103236258B 申请公布日期 2015.09.16
申请号 CN201310168156.6 申请日期 2013.05.06
申请人 东南大学 发明人 李悦;章国宝;黄永明
分类号 G10L15/02(2006.01)I;G10L25/63(2013.01)I 主分类号 G10L15/02(2006.01)I
代理机构 江苏永衡昭辉律师事务所 32250 代理人 王剑
主权项 一种基于巴氏距离最优小波包分解的语音情感特征提取方法,其特征在于,包括以下步骤:步骤1:接收情感语音片段输入;步骤2:将情感语音片段数字化以提供数字语音信号X;步骤3:对数字语音信号X进行预处理,得到有效语音帧集合;步骤4:构造巴氏距离最优小波包基;步骤5:利用步骤4构造的巴氏距离最优小波包基对有效语音帧进行小波包分解,得到各有效语音帧的小波包系数;步骤6:利用步骤5得到的有效语音帧小波包系数计算各有效语音帧的情感特征;步骤4中所述的巴氏距离最优小波包基的构造方法如下:步骤4.1:采集已知情感类别的语音片段,作为小波包构造数据集;步骤4.2:对小波包构造数据集的情感语音片段数字化以提供小波包构造数字语音信号;步骤4.3:采用步骤3所述的预处理方法,对小波包构造数字语音信号进行预处理,得到小波包构造有效语音帧集合<img file="FDA0000689074220000011.GIF" wi="380" he="86" />其中l为情感类别标号,L为情感类别总数,N<sub>l</sub>为情感类别l的小波包构造有效语音帧的总帧数,<img file="FDA0000689074220000012.GIF" wi="75" he="77" />为情感类别l的第m个小波包构造有效语音帧;步骤4.4:构造J层满二叉树结构<img file="FDA0000689074220000013.GIF" wi="86" he="67" />作为完全小波包分解树,将其表示为<img file="FDA0000689074220000014.GIF" wi="1022" he="84" />J=5,其树节点以二元组(j,p)表示,0≤j≤J,0≤p≤2<sup>j</sup>‑1,j为树节点的深度,p为<img file="FDA0000689074220000015.GIF" wi="96" he="66" />中同一深度j下位于该节点左侧的节点总数目;步骤4.5:对各小波包构造有效语音帧<img file="FDA0000689074220000016.GIF" wi="547" he="84" />按照满二叉树结构<img file="FDA0000689074220000017.GIF" wi="84" he="69" />进行小波包分解,小波包分解的具体步骤如下:步骤4.5.1:对于各小波包构造有效语音帧<img file="FDA0000689074220000021.GIF" wi="69" he="82" />且1≤m≤N<sub>l</sub>、1≤l≤L,计算其在小波包树根节点(0,0)上的小波包系数<img file="FDA0000689074220000022.GIF" wi="157" he="99" /><maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msubsup><mi>W</mi><mrow><mo>(</mo><mn>0,0</mn><mo>)</mo></mrow><mrow><mi>m</mi><mo>,</mo><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></mrow></msubsup><mrow><mo>(</mo><msub><mi>n</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>=</mo><msup><msub><mi>F</mi><mi>s</mi></msub><mrow><mo>-</mo><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup><mo>&CenterDot;</mo><msubsup><mi>t</mi><mi>m</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></msubsup><mrow><mo>(</mo><msub><mi>n</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><mn>0</mn><mo>&le;</mo><msub><mi>n</mi><mn>1</mn></msub><mo>&le;</mo><mn>255</mn><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000689074220000023.GIF" wi="1217" he="96" /></maths>其中F<sub>s</sub>表示数字语音信号采样频率,<img file="FDA0000689074220000024.GIF" wi="74" he="77" />为情感类别l的第m个小波包构造有效语音帧,<img file="FDA0000689074220000025.GIF" wi="149" he="81" />为<img file="FDA0000689074220000026.GIF" wi="68" he="79" />在第n<sub>1</sub>个离散点上的值,<img file="FDA0000689074220000027.GIF" wi="218" he="92" />为小波包构造有效语音帧<img file="FDA0000689074220000028.GIF" wi="66" he="80" />在小波包树根节点(0,0)上的第n<sub>1</sub>个小波包系数;步骤4.5.2:对于各小波包构造有效语音帧<img file="FDA0000689074220000029.GIF" wi="67" he="81" />且1≤m≤N<sub>l</sub>、1≤l≤L,将<img file="FDA00006890742200000210.GIF" wi="72" he="77" />在小波包树根节点(0,0)上的小波包系数<img file="FDA00006890742200000211.GIF" wi="140" he="91" />作为初始值,通过马拉Mallat算法依次计算<img file="FDA00006890742200000212.GIF" wi="67" he="84" />在各小波包树节点处的小波包系数<img file="FDA00006890742200000213.GIF" wi="583" he="93" /><img file="FDA00006890742200000214.GIF" wi="214" he="101" /><img file="FDA00006890742200000215.GIF" wi="1540" he="391" />其中1≤j≤J、0≤p≤2<sup>j</sup>‑1,<img file="FDA00006890742200000216.GIF" wi="196" he="99" />为情感类别l的第m个小波包构造有效语音帧<img file="FDA00006890742200000217.GIF" wi="73" he="77" />在小波包树节点(j,p)上的第r个小波包系数,<img file="FDA00006890742200000218.GIF" wi="277" he="99" />且p为偶数表示<img file="FDA00006890742200000219.GIF" wi="67" he="77" />在小波包树节点(j‑1,p/2)上的第r'个小波包系数,<img file="FDA00006890742200000220.GIF" wi="352" he="92" />且p为奇数表示<img file="FDA00006890742200000221.GIF" wi="62" he="81" />在小波包树节点(j‑1,(p‑1)/2)上的第r'个小波包系数,h(r'‑2r)为10阶多贝西Daubechies小波低通滤波器h在第r'‑2r个离散点上的值,g(r'‑2r)为10阶多贝西Daubechies小波高通滤波器g在第r'‑2r个离散点上的值,10阶多贝西Daubechies小波低通和高通滤波器h、g满足:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>g</mi><mrow><mo>(</mo><mover><mi>r</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mover><mi>r</mi><mo>&OverBar;</mo></mover></msup><mi>h</mi><mrow><mo>(</mo><mn>19</mn><mo>-</mo><mover><mi>r</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mo>,</mo><mn>0</mn><mo>&le;</mo><mover><mi>r</mi><mo>&OverBar;</mo></mover><mo>&le;</mo><mn>19</mn><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA00006890742200000222.GIF" wi="1161" he="80" /></maths>其中<img file="FDA0000689074220000031.GIF" wi="110" he="69" />为10阶多贝西Daubechies小波高通滤波器g在第<img file="FDA0000689074220000032.GIF" wi="46" he="55" />个离散点上的值,<img file="FDA0000689074220000033.GIF" wi="203" he="69" />为10阶多贝西Daubechies小波低通滤波器h在第<img file="FDA0000689074220000034.GIF" wi="143" he="59" />个离散点上的值;步骤4.6:对于各小波包构造有效语音帧<img file="FDA0000689074220000035.GIF" wi="64" he="77" />且1≤m≤N<sub>l</sub>、1≤l≤L,计算<img file="FDA0000689074220000036.GIF" wi="79" he="78" />在各小波包树节点(j,p)且0≤j≤J、0≤p≤2<sup>j</sup>‑1的归一化能量<img file="FDA0000689074220000037.GIF" wi="266" he="84" /><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mover><mi>E</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>;</mo><msubsup><mi>t</mi><mi>m</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>|</mo><mo>|</mo><msubsup><mi>W</mi><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mrow><mi>m</mi><mo>,</mo><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></mrow></msubsup><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>/</mo><msup><mrow><mo>|</mo><mo>|</mo><msubsup><mi>t</mi><mi>m</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></msubsup><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000689074220000038.GIF" wi="1125" he="97" /></maths>其中<img file="FDA0000689074220000039.GIF" wi="140" he="100" />为情感类别l的第m个小波包构造有效语音帧<img file="FDA00006890742200000310.GIF" wi="72" he="77" />在节点(j,p)上的小波包系数,<img file="FDA00006890742200000311.GIF" wi="201" he="94" />为<img file="FDA00006890742200000312.GIF" wi="139" he="94" />的欧氏范数,<img file="FDA00006890742200000313.GIF" wi="138" he="84" />为<img file="FDA00006890742200000314.GIF" wi="68" he="79" />的欧式范数;步骤4.7:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2<sup>j</sup>‑1的巴氏距离,具体步骤如下:步骤4.7.1:对各小波包树节点(j,p)且0≤j≤J、0≤p≤2<sup>j</sup>‑1,分别计算情感类别l且1≤l≤L的全体小波包构造有效语音帧<img file="FDA00006890742200000315.GIF" wi="236" he="93" />在节点(j,p)处的归一化能量均值μ<sub>l</sub>(j,p)和方差<img file="FDA00006890742200000316.GIF" wi="204" he="82" /><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>&mu;</mi><mi>l</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msub><mi>N</mi><mi>l</mi></msub></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>l</mi></msub></munderover><mover><mi>E</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>;</mo><msubsup><mi>t</mi><mi>m</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA00006890742200000317.GIF" wi="1076" he="165" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msubsup><mi>&sigma;</mi><mi>l</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msub><mi>N</mi><mi>l</mi></msub></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>l</mi></msub></munderover><msup><mrow><mo>(</mo><mover><mi>E</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>;</mo><msubsup><mi>t</mi><mi>m</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>-</mo><msub><mi>&mu;</mi><mi>l</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>16</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA00006890742200000318.GIF" wi="1219" he="158" /></maths>其中μ<sub>l</sub>(j,p)表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,<img file="FDA00006890742200000319.GIF" wi="178" he="82" />表示情感类别l的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差;步骤4.7.2:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2<sup>j</sup>‑1中的所有两两情感类别l<sub>1</sub>、l<sub>2</sub>的类间巴氏距离D<sub>Bh</sub>(j,p;l<sub>1</sub>,l<sub>2</sub>),其中,1≤l<sub>1</sub>≤L,1≤l<sub>2</sub>≤L,且l<sub>1</sub>≠l<sub>2</sub>:<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><mfenced open='' close=''><mtable><mtr><mtd><msub><mi>D</mi><mi>Bh</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>;</mo><msub><mi>l</mi><mn>1</mn></msub><mo>,</mo><msub><mi>l</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mn>8</mn></mfrac><msup><mrow><mo>(</mo><msub><mi>&mu;</mi><msub><mi>l</mi><mn>2</mn></msub></msub><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>&mu;</mi><msub><mi>l</mi><mn>1</mn></msub></msub><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><msup><mrow><mo>[</mo><mfrac><mrow><msubsup><mi>&sigma;</mi><msub><mi>l</mi><mn>1</mn></msub><mn>2</mn></msubsup><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>+</mo><msubsup><mi>&sigma;</mi><msub><mi>l</mi><mn>2</mn></msub><mn>2</mn></msubsup><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow></mrow><mn>2</mn></mfrac><mo>]</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup></mtd></mtr><mtr><mtd><mo>+</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mi>ln</mi><mfrac><mrow><mrow><mo>(</mo><msubsup><mi>&sigma;</mi><msub><mi>l</mi><mn>1</mn></msub><mn>2</mn></msubsup><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>+</mo><msubsup><mi>&sigma;</mi><msub><mi>l</mi><mn>2</mn></msub><mn>2</mn></msubsup><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>/</mo><mn>2</mn></mrow><mrow><msub><mi>&sigma;</mi><msub><mi>l</mi><mn>1</mn></msub></msub><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><msub><mi>&sigma;</mi><msub><mi>l</mi><mn>2</mn></msub></msub><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow></mrow></mfrac></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>17</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000689074220000041.GIF" wi="1482" he="356" /></maths>其中D<sub>Bh</sub>(j,p;l<sub>1</sub>,l<sub>2</sub>)表示在节点(j,p)处情感类别l<sub>1</sub>、l<sub>2</sub>的类间巴氏距离,<img file="FDA00006890742200000411.GIF" wi="173" he="67" />表示情感类别l<sub>1</sub>的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,<img file="FDA00006890742200000412.GIF" wi="182" he="72" />表示情感类别l<sub>2</sub>的全体小波包构造有效语音帧在节点(j,p)处的归一化能量均值,<img file="FDA0000689074220000042.GIF" wi="186" he="91" />和<img file="FDA00006890742200000413.GIF" wi="172" he="71" />分别表示情感类别l<sub>1</sub>的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差,<img file="FDA0000689074220000043.GIF" wi="192" he="93" />和<img file="FDA00006890742200000414.GIF" wi="175" he="76" />分别表示情感类别l<sub>2</sub>的全体小波包构造有效语音帧在节点(j,p)处的归一化能量方差和标准差;步骤4.7.3:计算各小波包树节点(j,p)且0≤j≤J、0≤p≤2<sup>j</sup>‑1上的巴氏距离D<sub>Bh</sub>(j,p):<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><msub><mi>D</mi><mi>Bh</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><msub><mi>l</mi><mn>1</mn></msub><mo>=</mo><mn>1</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover><munderover><mi>&Sigma;</mi><mrow><msub><mi>l</mi><mn>2</mn></msub><mo>=</mo><msub><mi>l</mi><mn>1</mn></msub><mo>+</mo><mn>1</mn></mrow><mi>L</mi></munderover><msub><mi>P</mi><msub><mi>l</mi><mn>1</mn></msub></msub><msub><mi>P</mi><msub><mi>l</mi><mn>2</mn></msub></msub><msub><mi>D</mi><mi>Bh</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>,</mo><mi>p</mi><mo>;</mo><msub><mi>l</mi><mn>1</mn></msub><mo>,</mo><msub><mi>l</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>18</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000689074220000044.GIF" wi="1206" he="165" /></maths>其中D<sub>Bh</sub>(j,p)表示节点(j,p)处的巴氏距离,<img file="FDA0000689074220000045.GIF" wi="67" he="73" />与<img file="FDA0000689074220000046.GIF" wi="66" he="74" />分别表示情感类别l<sub>1</sub>与l<sub>2</sub>的先验概率:<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><msub><mi>P</mi><msub><mi>l</mi><mn>1</mn></msub></msub><mo>=</mo><mfrac><msub><mi>N</mi><msub><mi>l</mi><mn>1</mn></msub></msub><mrow><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msub><mi>N</mi><mi>l</mi></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>19</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000689074220000047.GIF" wi="906" he="228" /></maths><maths num="0009" id="cmaths0009"><math><![CDATA[<mrow><msub><mi>P</mi><msub><mi>l</mi><mn>2</mn></msub></msub><mo>=</mo><mfrac><msub><mi>N</mi><msub><mi>l</mi><mn>2</mn></msub></msub><mrow><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msub><mi>N</mi><mi>l</mi></msub></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>20</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000689074220000048.GIF" wi="908" he="226" /></maths>其中<img file="FDA0000689074220000049.GIF" wi="66" he="76" />和<img file="FDA00006890742200000410.GIF" wi="68" he="74" />分别表示情感类别l<sub>1</sub>与l<sub>2</sub>的小波包构造有效语音帧的总帧数,N<sub>l</sub>为情感类别l的小波包构造有效语音帧的总帧数;步骤4.8:依据巴氏距离并采用自底至顶的搜索方法构造最优小波包树,最优小波包树的所有叶节点对应的小波包基即为巴氏距离最优小波包基,具体步骤如下:步骤4.8.1:初始化小波包树结构为<img file="FDA0000689074220000051.GIF" wi="206" he="66" />用“*”标记<img file="FDA0000689074220000056.GIF" wi="46" he="53" />的所有叶节点;步骤4.8.2:对j=J‑1,...,0,p=0,...,2<sup>j</sup>‑1,依次执行:将节点(j,p)的巴氏距离与其两个子节点(j+1,2p)、(j+1,2p+1)的巴氏距离之和进行比较,若D<sub>Bh</sub>(j,p)>D<sub>Bh</sub>(j+1,2p)+D<sub>Bh</sub>(j+1,2p+1)   (21)则用“*”标记节点(j,p),否则不标记节点(j,p),且更新D<sub>Bh</sub>(j,p)值为D<sub>Bh</sub>(j,p)=D<sub>Bh</sub>(j+1,2p)+D<sub>Bh</sub>(j+1,2p+1)   (22)其中D<sub>Bh</sub>(j,p)表示节点(j,p)的巴氏距离,D<sub>Bh</sub>(j+1,2p)、D<sub>Bh</sub>(j+1,2p+1)分别表示节点(j+1,2p)、(j+1,2p+1)的巴氏距离;步骤4.8.3:从小波包树<img file="FDA0000689074220000057.GIF" wi="47" he="48" />最顶层开始,从上至下移除所有标记为“*”的节点的所有后继结点,得到最优小波包树,最优小波包树的所有叶节点{(j<sub>i</sub>,p<sub>i</sub>)}<sub>1≤i≤I</sub>对应的小波包基即为巴氏距离最优小波包基,其中I为最优小波包树的叶节点总数;步骤5中所述的有效语音帧小波包分解方法如下:步骤5.1:对于各有效语音帧s<sub>k</sub>且1≤k≤K,其在小波包树根节点(0,0)上的小波包系数<img file="FDA0000689074220000052.GIF" wi="120" he="90" />为:<maths num="0010" id="cmaths0010"><math><![CDATA[<mrow><msubsup><mi>w</mi><mrow><mo>(</mo><mn>0,0</mn><mo>)</mo></mrow><mi>k</mi></msubsup><mrow><mo>(</mo><msub><mi>n</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><msubsup><mi>F</mi><mi>s</mi><mrow><mo>-</mo><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msubsup><mo>&CenterDot;</mo><msub><mi>s</mi><mi>k</mi></msub><mrow><mo>(</mo><msub><mi>n</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>,</mo><mn>0</mn><mo>&le;</mo><msub><mi>n</mi><mn>2</mn></msub><mo>&le;</mo><mn>255</mn><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>23</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000689074220000053.GIF" wi="1221" he="90" /></maths>其中F<sub>s</sub>表示采样频率,s<sub>k</sub>(n<sub>2</sub>)为有效语音帧s<sub>k</sub>在第n<sub>2</sub>个离散点上的值,<img file="FDA0000689074220000054.GIF" wi="209" he="89" />为有效语音帧s<sub>k</sub>在小波包树根节点(0,0)上的第n<sub>2</sub>个小波包系数;步骤5.2:对于各有效语音帧s<sub>k</sub>且1≤k≤K,将s<sub>k</sub>在小波包树根节点(0,0)上的小波包系数<img file="FDA0000689074220000055.GIF" wi="118" he="91" />作为初始值,通过马拉Mallat算法计算s<sub>k</sub>在最优小波包树叶节点{(j<sub>i</sub>,p<sub>i</sub>)}<sub>1≤i≤I</sub>处的小波包系数:<img file="FDA0000689074220000061.GIF" wi="1548" he="401" />其中<img file="FDA0000689074220000062.GIF" wi="215" he="94" />表示有效语音帧s<sub>k</sub>在最优小波包树叶节点(j<sub>i</sub>,p<sub>i</sub>)处的第r<sub>1</sub>个小波包系数,<img file="FDA0000689074220000063.GIF" wi="301" he="98" />且p<sub>i</sub>为偶数表示s<sub>k</sub>在小波包树节点(j<sub>i</sub>‑1,p<sub>i</sub>/2)上的第r<sub>2</sub>个小波包系数,<img file="FDA0000689074220000064.GIF" wi="366" he="94" />且p<sub>i</sub>为奇数表示s<sub>k</sub>在小波包树节点<img file="FDA0000689074220000065.GIF" wi="383" he="77" />2上)的第r<sub>2</sub>个小波包系数,h(r<sub>2</sub>‑2r<sub>1</sub>)和g(r<sub>2</sub>‑2r<sub>1</sub>)分别为10阶多贝西Daubechies小波低通和高通滤波器h和g在第r<sub>2</sub>‑2r<sub>1</sub>个离散点上的值;步骤6中所述的各有效语音帧的情感特征计算方法如下:步骤6.1:对最优小波包树的全体叶节点{(j<sub>i</sub>,p<sub>i</sub>)}<sub>1≤i≤I</sub>,按步骤4.7计算巴氏距离并将全体叶节点{(j<sub>i</sub>,p<sub>i</sub>)}<sub>1≤i≤I</sub>的巴氏距离按由大到小顺序进行排序,排序后的叶节点表示为(j′<sub>1</sub>,p′<sub>1</sub>),(j′<sub>2</sub>,p′<sub>2</sub>),...,(j′<sub>I</sub>,p′<sub>I</sub>),选取巴氏距离排序前I'且I'<I的叶节点(j′<sub>1</sub>,p′<sub>1</sub>),(j′<sub>2</sub>,p′<sub>2</sub>),...,(j′<sub>I'</sub>,p′<sub>I'</sub>);步骤6.2:对于各有效语音帧s<sub>k</sub>且1≤k≤K,计算s<sub>k</sub>在叶节点{(j′<sub>i'</sub>,p′<sub>i'</sub>)}<sub>1≤i'≤I'</sub>上的归一化能量:<maths num="0011" id="cmaths0011"><math><![CDATA[<mrow><mover><mi>E</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><msubsup><mi>j</mi><msup><mi>i</mi><mo>&prime;</mo></msup><mo>&prime;</mo></msubsup><mo>,</mo><msubsup><mi>p</mi><msup><mi>i</mi><mo>&prime;</mo></msup><mo>&prime;</mo></msubsup><mo>;</mo><msub><mi>s</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>|</mo><mo>|</mo><msubsup><mi>W</mi><mrow><mo>(</mo><msubsup><mi>j</mi><msup><mi>i</mi><mo>&prime;</mo></msup><mo>&prime;</mo></msubsup><mo>,</mo><msubsup><mi>p</mi><msup><mi>i</mi><mo>&prime;</mo></msup><mo>&prime;</mo></msubsup><mo>)</mo></mrow><mn>2</mn></msubsup><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>/</mo><msup><mrow><mo>|</mo><mo>|</mo><msub><mi>s</mi><mi>k</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>25</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000689074220000066.GIF" wi="1135" he="94" /></maths>其中,(j′<sub>i'</sub>,p′<sub>i'</sub>)为巴氏距离排序第i'的最优小波包树叶节点,<img file="FDA0000689074220000067.GIF" wi="163" he="94" />为有效语音帧s<sub>k</sub>在最优小波包树叶节点(j′<sub>i'</sub>,p′<sub>i'</sub>)上的小波包系数,<img file="FDA0000689074220000068.GIF" wi="229" he="99" />为<img file="FDA0000689074220000069.GIF" wi="159" he="98" />的欧式范数,||s<sub>k</sub>||为s<sub>k</sub>的欧式范数;步骤6.3:对于各有效语音帧s<sub>k</sub>且1≤k≤K,计算s<sub>k</sub>的对数帧能量e<sub>k</sub>:e<sub>k</sub>=lg||s<sub>k</sub>||<sup>2</sup>   (26)其中,||s<sub>k</sub>||为s<sub>k</sub>的欧式范数;步骤6.4:对于各有效语音帧s<sub>k</sub>且1≤k≤K,<img file="FDA0000689074220000071.GIF" wi="425" he="81" />与对数帧能量e<sub>k</sub>共同构成s<sub>k</sub>的I'+1维情感特征c<sub>k</sub>:<maths num="0012" id="cmaths0012"><math><![CDATA[<mrow><msub><mi>c</mi><mi>k</mi></msub><mo>=</mo><msup><mrow><mo>(</mo><mover><mi>E</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><msubsup><mi>j</mi><mn>1</mn><mo>&prime;</mo></msubsup><mo>,</mo><msubsup><mi>p</mi><mn>1</mn><mo>&prime;</mo></msubsup><mo>;</mo><msub><mi>s</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo><mover><mi>E</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><msubsup><mi>j</mi><mn>2</mn><mo>&prime;</mo></msubsup><mo>,</mo><msubsup><mi>p</mi><mn>2</mn><mo>&prime;</mo></msubsup><mo>;</mo><msub><mi>s</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mover><mi>E</mi><mo>&OverBar;</mo></mover><mrow><mo>(</mo><msubsup><mi>j</mi><msup><mi>I</mi><mo>&prime;</mo></msup><mo>&prime;</mo></msubsup><mo>,</mo><msubsup><mi>p</mi><msup><mi>I</mi><mo>&prime;</mo></msup><mo>&prime;</mo></msubsup><mo>;</mo><msub><mi>s</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo><msub><mi>e</mi><mi>k</mi></msub><mo>)</mo></mrow><mi>T</mi></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>27</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000689074220000072.GIF" wi="1302" he="79" /></maths>式中,上标T表示向量的转置。
地址 210096 江苏省南京市四牌楼2号