发明名称 一种基于模糊隶属函数的语音分离方法
摘要 本发明提供一种基于模糊隶属函数的语音分离方法,属于语音分离方法。该方法结合模糊隶属函数,得到语音时频单元对目标信号隶属程度的更准确定义,并模拟人耳听觉系统建立听觉振荡模型,提取语音基音特征,根据基音周期特征对语音时频单元进行标记,组成前景流和背景流。根据标记的不同判断对应的时频单元为目标或是噪声,在合成阶段目标单元乘以高权重,噪声单元则乘以低权重,得到重新合成语音。本发明可以更精准的估计出基音周期,基于此特征线索,对时频单元做出更准确的标记,得到更完整的目标语音。由于该方法基于语音的基音特征,因此在复杂非平稳噪声下有较好的分离效果,应用范围广泛。
申请公布号 CN103325381A 申请公布日期 2013.09.25
申请号 CN201310206373.X 申请日期 2013.05.29
申请人 吉林大学 发明人 林琳;徐鹤;孙晓颖;陈健;胡封晔;魏晓丽
分类号 G10L21/0272(2013.01)I 主分类号 G10L21/0272(2013.01)I
代理机构 吉林长春新纪元专利代理有限责任公司 22100 代理人 魏征骥
主权项 1.一种基于模糊隶属函数的语音分离方法,其特征在于,包括下列步骤:(一)语音信号的预处理,包括语音信号的端点检测、预加重;(二)听觉特征提取过程如下:(1)将预处理后得到的信号经过模拟耳蜗的伽马通滤波器处理;1)伽马通滤波器的时域响应为g<sub>c</sub>(t)=t<sup>i-1</sup>exp(-2πb<sub>c</sub>t)cos(2πf<sub>c</sub>+φ<sub>c</sub>)U(t)(1≤c≤N)其中,N是滤波器的个数,c是滤波器的序数,按频率高低在[1,N]范围内取值,i是滤波器的阶数,U(t)是单位阶跃函数,t是时间,φ<sub>c</sub>表示第c个滤波器的相位,f<sub>c</sub>是滤波器的中心频率,每个滤波器的带宽与人耳的临界频带有关,听觉心理学中的临界频带可以用等效矩形带宽来度量EBR(f)=24.7*(4.37f/1000+1)f为频率,b<sub>c</sub>取值为b<sub>c</sub>=1.019EBR(f<sub>c</sub>)2)对g<sub>c</sub>(t)进行拉普拉斯变换,得到<maths num="0001"><![CDATA[<math><mrow><msub><mi>G</mi><mi>c</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Integral;</mo><mrow><mo>-</mo><mo>&infin;</mo></mrow><mo>&infin;</mo></munderover><msub><mi>g</mi><mi>c</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><msup><mi>e</mi><mrow><mo>-</mo><mi>st</mi></mrow></msup><mi>dt</mi></mrow></math>]]></maths><maths num="0002"><![CDATA[<math><mrow><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mo>&Integral;</mo><mn>0</mn><mo>&infin;</mo></munderover><msup><mi>t</mi><mrow><mi>i</mi><mo>-</mo><mn>1</mn></mrow></msup><msup><mi>e</mi><mrow><mo>-</mo><mn>2</mn><mi>&pi;</mi><msub><mi>b</mi><mi>c</mi></msub><mi>t</mi></mrow></msup><mo>[</mo><msup><mi>e</mi><mrow><mi>j</mi><mn>2</mn><mi>&pi;</mi><msub><mi>f</mi><mi>c</mi></msub><mi>t</mi></mrow></msup><mo>+</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>j</mi><mn>2</mn><mi>&pi;</mi><msub><mi>f</mi><mi>c</mi></msub><mi>t</mi></mrow></msup><mo>]</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>st</mi></mrow></msup><mi>dt</mi></mrow></math>]]></maths>s是拉式变换复变量,j为虚数单位;3)为简化公式,令参数等效带宽b=2πb<sub>c</sub>,等效频率ω=2πf<sub>c</sub>,得到伽马通滤波器冲激响应的拉氏变换G<sub>c</sub>(s)<maths num="0003"><![CDATA[<math><mrow><msub><mi>G</mi><mi>c</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>[</mo><mfrac><mrow><mn>3</mn><mo>!</mo></mrow><msup><mrow><mo>(</mo><mi>s</mi><mo>+</mo><mi>b</mi><mo>-</mo><mi>j&omega;</mi><mo>)</mo></mrow><mi>i</mi></msup></mfrac><mo>+</mo><mfrac><mrow><mn>3</mn><mo>!</mo></mrow><msup><mrow><mo>(</mo><mi>s</mi><mo>+</mo><mi>b</mi><mo>+</mo><mi>j&omega;</mi><mo>)</mo></mrow><mi>i</mi></msup></mfrac><mo>]</mo></mrow></math>]]></maths>4)将G<sub>c</sub>(s)转换为Z变换G<sub>c</sub>(z)形式,再反变换得到伽马通滤波器的离散冲激响应g<sub>c</sub>(n),<maths num="0004"><![CDATA[<math><mrow><msub><mi>g</mi><mi>c</mi></msub><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>2</mn><mi>&pi;j</mi></mrow></mfrac><mo>&Integral;</mo><msub><mi>G</mi><mi>c</mi></msub><mrow><mo>(</mo><mi>z</mi><mo>)</mo></mrow><msup><mi>z</mi><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></msup><mi>dz</mi></mrow></math>]]></maths>n为信号数字域时间,Z为Z变换变量;5)将语音信号与g<sub>c</sub>(n)卷积后得到伽马通滤波器的滤波输出h(c,n);6)对h(c,n)进行响度变换,得到听觉特征GF(c,n);<maths num="0005"><![CDATA[<math><mrow><mi>GF</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>n</mi><mo>)</mo></mrow><mo>=</mo><mroot><mrow><mi>h</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>n</mi><mo>)</mo></mrow></mrow><mn>3</mn></mroot></mrow></math>]]></maths>(三)对伽马通滤波器的滤波输出h(c,n)采用中级听觉形式表示;(1)自相关图谱A(c,m,τ),在时间帧m上,第c个通道在延时为τ的自相关A(c,m,τ)为<maths num="0006"><![CDATA[<math><mrow><mi>A</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>&tau;</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msub><mi>N</mi><mi>c</mi></msub></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>c</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><mi>h</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>mT</mi><mo>-</mo><mi>n</mi><mo>)</mo></mrow><mi>h</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>mT</mi><mo>-</mo><mi>n</mi><mo>-</mo><mi>&tau;</mi><mo>)</mo></mrow></mrow></math>]]></maths>其中,h是听觉外周模型的输出,T是帧间距离,对应于10ms,N<sub>c</sub>为自相关对应窗长的点数,其中窗长取帧长度20ms和4/f<sub>c</sub>之间的较大值,f<sub>c</sub>为伽马通滤波器对应通道的中心频率,延迟τ的取值范围是[0,12.5ms],对应于伽马通滤波器的中心频率;(2)互相关图谱为<img file="FDA00003265481100023.GIF" wi="707" he="150" />其中,<img file="FDA00003265481100024.GIF" wi="200" he="85" />为A(c,m,τ)的归一化函数,L对应于最大时延12.5ms,互相关图谱表明两个是否属于同一声源;(3)和相关图谱用于强化周期性的信号在频段上A(c,m,τ)与基音相关的结构,在时间帧m和延迟τ上的和相关图谱为<maths num="0007"><![CDATA[<math><mrow><mi>s</mi><mrow><mo>(</mo><mi>m</mi><mo>,</mo><mi>&tau;</mi><mo>)</mo></mrow><mo>=</mo><mrow><munder><mi>&Sigma;</mi><mi>c</mi></munder><mi>A</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>&tau;</mi><mo>)</mo></mrow></mrow></mrow></math>]]></maths>(4)在时间帧m,第c个通道在延时为τ的包络自相关图谱为A<sub>E</sub>(c,m,τ)为<maths num="0008"><![CDATA[<math><mrow><msub><mi>A</mi><mi>E</mi></msub><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>m</mi><mo>,</mo><mi>&tau;</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msub><mi>N</mi><mi>c</mi></msub></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>N</mi><mi>c</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>h</mi><mi>E</mi></msub><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>mT</mi><mo>-</mo><mi>n</mi><mo>)</mo></mrow><msub><mi>h</mi><mi>E</mi></msub><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>mT</mi><mo>-</mo><mi>n</mi><mo>-</mo><mi>&tau;</mi><mo>)</mo></mrow></mrow></math>]]></maths>其中,h(c,n)即为h(c,n)的包络,具体计算过程如下:1)对h(c,n)进行半波整流;2)利用带通滤波器滤除直流成分和基频成分以外所有的谐波。对于每五帧用参数相同的滤波器,通带为<img file="FDA00003265481100031.GIF" wi="288" he="85" />止带为<img file="FDA00003265481100032.GIF" wi="196" he="82" />和<img file="FDA00003265481100033.GIF" wi="266" he="79" />其中<img file="FDA00003265481100034.GIF" wi="58" he="79" />是这五帧估计的基频的平均值,滤波器中使用kaiser窗函数;3)对滤波输出的信号r(c,n)进行希尔伯特变换,得到h(c,n)的包络h<sub>E</sub>(c,n);(5)包络互相关图谱计算公式为<img file="FDA00003265481100035.GIF" wi="746" he="142" />其中,<img file="FDA00003265481100036.GIF" wi="224" he="86" />为A<sub>E</sub>(c,m,τ)归一化自相关函数,C<sub>E</sub>(c,m)可以体现两个相邻频段AM速率的相似度;(四)低频区分离具体过程如下:(1)利用A(c,m,τ)计算s(m,τ),s(m,τ)在时间帧m上最大值(在τ∈[2ms,12.5ms]条件下)所对应的时延τ<sub>D</sub>(m)即为此时间帧的主基音周期;(2)选择A(c,m,0)>θ<sub>A</sub>.^2和C(c,m)>θ<sub>c</sub>的T-F单元,标记值为1,θ<sub>A</sub>为能量阈值,θ<sub>c</sub>为互相关阈值,将相邻单元:相同频段上相邻的单元,或者相同时间帧上的相邻的单元组合成段,根据时间连续性原则,去掉持续时间小于50ms的分段;(3)时频单元隶属于目标语音的隶属度函数为U(A,Ratio,τ<sub>s</sub>(m)),隶属值计算公式为:<img file="FDA00003265481100037.GIF" wi="1458" he="311" />其中:<maths num="0009"><![CDATA[<math><mrow><mi>Ratio</mi><mo>=</mo><mfrac><mrow><mi>A</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>m</mi><mo>,</mo><msub><mi>&tau;</mi><mi>S</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><mi>A</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>m</mi><mo>,</mo><msub><mi>&tau;</mi><mi>P</mi></msub><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>m</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths><maths num="0010"><![CDATA[<math><mrow><mi>diff</mi><mrow><mo>(</mo><msub><mi>&tau;</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>&tau;</mi><mi>s</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>+</mo><mi>q</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>|</mo><msub><mi>&tau;</mi><mi>S</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>&tau;</mi><mi>S</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>+</mo><mi>q</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mi>min</mi><mrow><mo>(</mo><msub><mi>&tau;</mi><mi>S</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>&tau;</mi><mi>S</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>+</mo><mi>q</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac></mrow></math>]]></maths>τ<sub>min</sub>=min(τ<sub>S</sub>(m),τ<sub>S</sub>(m+q))τ<sub>max</sub>=max(τ<sub>S</sub>(m),τ<sub>S</sub>(m+q))式中,τ<sub>P</sub>(c,m)是在可信基音范围[2ms,12.5ms]内A(c,m,τ)取最大值时所对应的时延;τ<sub>s</sub>(m+q)为与时间帧m相邻时间帧(q=-1时为前一帧,q=1为后一帧),diff(τ<sub>s</sub>(m),τ<sub>s</sub>(m+q))主要用于计算相邻两帧间基音的差异;(4)判断先后两次得到的隶属值计算结果差异是否小于2%,若小于2%则转至(6),否则转至(5);(5)保留目标语音主导的单元并组成分段,利用目标主导分段中隶属值等于1的单元,重新估计基音周期,然后转至(3);(6)保留分段中多余一半以上时频单元隶属值大于0的分段,并组合成前景流,其余时频单元组合成背景流;(7)利用下面两个约束条件验证提取基音的可靠性,对于不可靠的基音周期利用线性插值,得到时间连续的基音曲线,约束条件为:1)根据下式判断某一时频单元自身的周期是否与估计的基音周期时频单元一致;<maths num="0011"><![CDATA[<math><mrow><mfrac><mrow><mi>A</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>m</mi><mo>,</mo><msub><mi>&tau;</mi><mi>S</mi></msub><mrow><mo>(</mo><mi>m</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><mi>A</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>m</mi><mo>,</mo><msub><mi>&tau;</mi><mi>P</mi></msub><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>m</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac><mo>></mo><msub><mi>&theta;</mi><mi>P</mi></msub></mrow></math>]]></maths>其中,θ<sub>p</sub>生理阈值,如果估计的基音周期是可信的,那么前景流中在相应时间帧上的时频单元至少有一半的单元应该与此基音相符;2)可信的基音周期相邻两帧间的差异应该小于20%;(8)计算每个时频单元的Ratio值,将分段中有一半以上的单元的Ratio值大于θ<sub>p</sub>的段,组合成前景流<img file="FDA00003265481100042.GIF" wi="105" he="85" />剩余的单元组合成背景流<img file="FDA00003265481100043.GIF" wi="102" he="77" />得到低频区的分离结果;(五)高频区分离具体过程如下:(1)求取归一化的滤波整流信号<img file="FDA00003265481100044.GIF" wi="178" he="69" />计算公式为:<img file="FDA00003265481100045.GIF" wi="365" he="141" />(2)利用指定周期为τ<sub>S</sub>(m)的单正弦信号,建立与时频单元相应的标准化信号;(3)通过下式比较AM速率和估计的基音周期;<img file="FDA00003265481100046.GIF" wi="992" he="165" />式中,φ为相位,φ<sub>cm</sub>为上式取最小值时对应φ的值,f<sub>s</sub>为语音信号抽样频率;(4)令上式中平方误差估偏移为0,就可得到<img file="FDA00003265481100051.GIF" wi="803" he="272" />在[0,2π)范围内,上式φ<sub>cm</sub>有两个解,取令平方误差最小的解为φ<sub>cm</sub>值;(5)将满足下式的时频单元标记为目标;<img file="FDA00003265481100052.GIF" wi="898" he="278" />式中θ<sub>AM</sub>为AM准则阈值;(6)将不属于<img file="FDA00003265481100053.GIF" wi="64" he="85" />但C<sub>E</sub>>θ<sub>E</sub>的时频单元组合成段,θ<sub>E</sub>为包络互相关阈值,根据语音的连续性,除去少于50ms的段,将剩下的符合条件的分段添加进新的前景流<img file="FDA00003265481100054.GIF" wi="100" he="85" />(7)为减少噪声影响,对前景流<img file="FDA00003265481100055.GIF" wi="74" he="78" />中的段做如下调整:1)如果一个目标语音分段的持续时间大于50ms,则将其留在<img file="FDA00003265481100056.GIF" wi="72" he="77" />中;2)如果一个噪声分段的持续时间大于50ms,则将其添加进<img file="FDA00003265481100057.GIF" wi="66" he="82" />中;3)将剩下的段移除<img file="FDA00003265481100058.GIF" wi="100" he="79" />并保留待进一步处理;4)对<img file="FDA00003265481100059.GIF" wi="62" he="78" />反复迭代计算,将其周围且在上述步骤3)中未处理的分段合并,余下的分段再次并入<img file="FDA000032654811000510.GIF" wi="96" he="85" />5)剩下的独立且不属于任何流的单元,如果其被标记为目标,且与前景流相邻,则将其添加进前景流,否则将其加入背景流,由此得到了最终的前景流<img file="FDA000032654811000511.GIF" wi="72" he="80" />和背景流<img file="FDA000032654811000512.GIF" wi="94" he="78" />(六)通过对应于声源中每个时频单元的权重恢复目标信号,具体过程如下:(1)对每个滤波器的输出进行时间反转,消除交叉频段上的相位误差;(2)将反转后信号经过伽马通滤波器处理;(3)对输出信号再次进行时间反转;(4)将经过相位校准滤波后的输出中每个时频单元乘以与时频掩码相应的权重,其中<img file="FDA00003265481100061.GIF" wi="70" he="85" />中时频单元的二进制掩码值为1,设置为高权重,<img file="FDA00003265481100062.GIF" wi="70" he="82" />中时频单元的二进制掩码值为0,设置为低权重;(5)对所有频段乘以权重后的输出进行求和,得到分离后的两个信号。
地址 130012 吉林省长春市朝阳区前卫路10号