发明名称 用于低比特率音频编码的语音/音乐检测器
摘要 本发明属于音频信号识别技术领域,其特征在于,在提取短时特征向量利用短时决策树进行语音信号和音乐信号判别后,还利用一个FIFO来进行长时特征向量的特征提取和长时决策树的判断。其中,短时特征向量包括短时能量函数和短时频谱分布函数;长时特征向量包括能量方差、能量过中值率、低能量比率、频谱分布变化率和低频谱分布比率;所述短时频谱分布参数是经过设定的多分辨率小波分析滤波器结合降采样来进行子带分解的。实验证明,本发明测试得到的平均误检率为0.8%。
申请公布号 CN1920947B 申请公布日期 2011.05.11
申请号 CN200610113117.6 申请日期 2006.09.15
申请人 清华大学 发明人 张斌;窦维蓓
分类号 G10L15/00(2006.01)I;G10L15/08(2006.01)I;G10L15/02(2006.01)I;G10L11/00(2006.01)I;G10L19/00(2006.01)I;G10L19/08(2006.01)I;G10L19/12(2006.01)I;G10L19/14(2006.01)I 主分类号 G10L15/00(2006.01)I
代理机构 代理人
主权项 1.用于低比特率音频编码的语音/音乐检测器,其特征在于,所述检测器是在一个数字集成电路上实现的,包含如下6个模块:模块(1),短时特征提取:输入信号是当前帧缓冲区输出的以帧长为单位的音频流,经过计算,得到短时音频特征向量,该短时音频特征向量包括两个分量,短时能量函数E[n]与短时频谱分布参数SP,分别如下(a)、(b)所述:(a),短时能量函数E[n]:<maths num="0001"><![CDATA[<math><mrow><mi>E</mi><mo>[</mo><mi>n</mi><mo>]</mo><mo>=</mo><msub><mi>log</mi><mn>10</mn></msub><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><mi>x</mi><mo>[</mo><mi>n</mi><mo>]</mo><mo>)</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>x[n]是离散化的输入音频信号,N是计算短时能量所取的音频信号片段的样点数,N=F<sub>s</sub>×帧长,F<sub>s</sub>为音频采样率,单位是kHz,帧长的单位是时间ms;(b),短时频谱分布参数SP:首先,在设定的采样率下,把每帧音频信号按设定的技术进行多分辨率子带分解,得到频带由低到高的l级子带,用1,2,...,l表示,所述l级子带是通过阶数与设定级数相对应的Daubechies小波构建的分析滤波器组对原信号进行滤波后得到的,其次,按下式计算短时频谱分布参数SP:SP<sub>21</sub>[n]=E<sub>2</sub>[n]-E<sub>1</sub>[n],SP<sub>31</sub>[n]=E<sub>3</sub>[n]-E<sub>1</sub>[n],...SP<sub>l1</sub>[n]=E<sub>l</sub>[n]-E<sub>1</sub>[n].E<sub>1</sub>[n],E<sub>2</sub>[n],…,E<sub>l</sub>[n]分别为各子带的短时能量函数;从而得到短时特征向量F<sub>s</sub>[n]:F<sub>S</sub>[n]=(E[n],SP<sub>21</sub>[n],SP<sub>31</sub>[n],…,SP<sub>l1</sub>[n])<sup>T</sup>;模块(2),先进先出存储器:即FIFO,顺次排列的若干存储单元,所存储序列的长度单位是秒,<img file="FSB00000294145700012.GIF" wi="572" he="119" />该序列以帧为单位接收从短时特征提取模块输出的每帧的E<sub>1</sub>[n],E<sub>2</sub>[n],…,E<sub>l</sub>[n];模块(3),比较器:输入是FIFO中已占用的存储单元的数量,即计数器的输出,与预设的FIFO长度比较判断FIFO是否已满,若FIFO未满,该比较器便向所述短时特征提取模块输出允许短时特征输出的信号;模块(4),长时特征提取:设有一个控制信号输入端,接收允许输出长时特征的信号,还有一个数据输入端,从FIFO输入E<sub>n</sub>[n-i],i=0,1,...,N-1,i是用FIFO内采样点序号表示的帧长序号,所述长时特征提取模块在接收到所述比较器输出的FIFO已满的信号后,计算长时特征向量,其中包括:(c),能量方差Var<sub>E</sub>[n]:<maths num="0002"><![CDATA[<math><mrow><msub><mi>Var</mi><mi>E</mi></msub><mo>[</mo><mi>n</mi><mo>]</mo><mo>=</mo><mfrac><mn>1</mn><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><msup><mrow><mo>(</mo><mi>E</mi><mo>[</mo><mi>n</mi><mo>-</mo><mi>i</mi><mo>]</mo><mo>-</mo><mover><mi>E</mi><mo>&OverBar;</mo></mover><mo>[</mo><mi>n</mi><mo>]</mo><mo>)</mo></mrow><mn>2</mn></msup><mo>,</mo></mrow></math>]]></maths><img file="FSB00000294145700022.GIF" wi="79" he="51" />为短时能量函数的平均值,<maths num="0003"><![CDATA[<math><mrow><mover><mi>E</mi><mo>&OverBar;</mo></mover><mo>[</mo><mi>n</mi><mo>]</mo><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>E</mi><mo>[</mo><mi>n</mi><mo>-</mo><mi>i</mi><mo>]</mo><mo>.</mo></mrow></math>]]></maths>(d),能量过中值率CR<sub>Emed</sub>:<maths num="0004"><![CDATA[<math><mrow><msub><mi>CR</mi><mi>Emed</mi></msub><mo>[</mo><mi>n</mi><mo>]</mo><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>2</mn></mrow></munderover><mrow><mo>(</mo><mo>|</mo><mi>sgn</mi><mrow><mo>(</mo><mi>E</mi><mo>[</mo><mi>n</mi><mo>-</mo><mi>i</mi><mo>]</mo><mo>-</mo><msub><mi>E</mi><mi>med</mi></msub><mo>)</mo></mrow><mo>-</mo><mi>sgn</mi><mrow><mo>(</mo><mi>E</mi><mo>[</mo><mi>n</mi><mo>-</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>]</mo><mo>-</mo><msub><mi>E</mi><mi>med</mi></msub><mo>)</mo></mrow><mo>|</mo><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>E<sub>med</sub>是短时能量函数的中值,在E[n-N+1]E到E[n]之间选取,sgn(x)为符号函数,<img file="FSB00000294145700025.GIF" wi="432" he="122" />(e),低能量比率R<sub>Elow</sub>:<maths num="0005"><![CDATA[<math><mrow><msub><mi>R</mi><mi>Elow</mi></msub><mo>[</mo><mi>n</mi><mo>]</mo><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><mrow><mo>(</mo><mi>E</mi><mo>[</mo><mi>n</mi><mo>-</mo><mi>i</mi><mo>]</mo><mo>&lt;</mo><msub><mi>E</mi><mi>th</mi></msub><mo>)</mo></mrow></mrow><mi>N</mi></mfrac><mo>,</mo></mrow></math>]]></maths>E<sub>th</sub>为低能量阈值,取-3.7;(f),频谱分布变化率SF:<maths num="0006"><![CDATA[<math><mrow><mi>SF</mi><mo>[</mo><mi>n</mi><mo>]</mo><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>2</mn></mrow></munderover><mo>|</mo><mo>|</mo><mi>S</mi><mo>[</mo><mi>n</mi><mo>-</mo><mi>i</mi><mo>]</mo><mo>-</mo><mi>S</mi><mo>[</mo><mi>n</mi><mo>-</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>]</mo><mo>|</mo><mo>|</mo><mo>,</mo></mrow></math>]]></maths>‖·‖为2范数,‖x‖=x<sup>T</sup>x;(g),低频谱分布比率R<sub>SPlow</sub>:<maths num="0007"><![CDATA[<math><mrow><msub><mi>R</mi><mi>SPlow</mi></msub><mo>[</mo><mi>n</mi><mo>]</mo><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></munderover><mrow><mo>(</mo><msub><mi>E</mi><mi>UV</mi></msub><mo>[</mo><mi>n</mi><mo>-</mo><mi>i</mi><mo>]</mo><mo>&lt;</mo><msub><mi>E</mi><mi>UVth</mi></msub><mo>)</mo></mrow></mrow><mi>N</mi></mfrac><mo>,</mo></mrow></math>]]></maths>E<sub>UV</sub>[n]函数定义为:E<sub>UV</sub>[n]=log<sub>10</sub>(未取对数的清音部分对应子带的短时能量之和)-log<sub>10</sub>(未取对数的浊音部分对应子带的短时能量之和),所述清音部分对应子带与浊音部分对应子带之间有一个共同的过渡区;E<sub>UVth</sub>为低能量阈值,取-2.5;从而得到长时特征的特征向量:F<sub>L</sub>[n]=(Var<sub>E</sub>[n],CR<sub>Emed</sub>[n],R<sub>Elow</sub>[n],SF[n],R<sub>SPlow</sub>[n])<sup>T</sup>;模块(5),短时决策树:一个二值决策树,判断从短时特征提取模块接收的短时特征向量是语音还是音乐信号的,该决策树上各节点的阈值是预先通过对大量样本的训练得到的,是已知值,而且每一个节点用一个为该节点设定的上限阈值来判断一个短时特征分量,满足阈值判断规则,则沿着左侧树枝往下前进到下一个节点,或遇到端点做出判断;否则,则沿着右侧的树枝往下前进到下一个节点,或是遇到端点做出判断;从而最后对是语音信号还是音乐信号来做出判断,并输出;模块(6),长时决策树:一个二值决策树,判断从长时特征提取模块接收的长时特征向量是语音信号还是音乐信号的,判断方法与短时决策树同。
地址 100084 北京市100084-82信箱