发明名称 一种宽频带语音质量客观评价方法
摘要 一种宽频带语音质量客观评价方法,被测语音和参考语音幅度归一化为均值为0,标准差为1的序列;记算50~7000Hz频带内临界带听阈;根据加窗语音帧的能量,计算安静帧阈值;对归一化后信号计算功率谱;在临界带内求和得到Bark谱;根据Bark谱,计算该语音帧的响度;归一化响度矢量;根据原语音的响度L<SUB>0</SUB>,编码语音的响度L<SUB>1</SUB>和噪声掩蔽阈值Th<SUB>n</SUB>确定可感知失真标志M(i);给出每帧失真;重复以上步骤,计算整个语音段的失真WBSD,在安静段是否有语音失真不影响听觉质量,将每个非静音段的累加求和,按非静音帧的帧数取平均值,即得整个语音段的WBSD。本发明能与主观质量测度保持较好的相关性,提高了精度。
申请公布号 CN1538667A 申请公布日期 2004.10.20
申请号 CN200310111273.5 申请日期 2003.10.24
申请人 武汉大学 发明人 胡瑞敏;艾浩军;涂卫平
分类号 H04L12/24;H04L12/26;H04L29/02;H04M3/18 主分类号 H04L12/24
代理机构 武汉天力专利事务所 代理人 冯卫平;程祥
主权项 1.本发明提出了一种宽频带语音质量客观评价方法,其特征是包括下列步骤:(1)测试语音和参考语音幅度归一化为均值为0,标准差为1的序列;(2)计算50~7000Hz频带内临界带听阈;(3)根据加窗语音帧的能量,计算安静帧阈值,如果一帧语音的能量小于安静帧阈值,这一帧信号不参加质量评价。安静帧语音能量阈值EnSilenceTh为相比最大能量帧的能量EnMax,其能量低于15dB;(4)归一化后信号计算功率谱;(5)在临界带内求和得到Bark谱;(6)根据Bark谱,计算该语音帧的响度;(7)归一化响度矢量Li(i),归一化因子等于参考语音帧的响度L0(j)与测试语音帧的响度Li(j)之比,其中,K为临界带个数;<math> <mrow> <mover> <mrow> <msub> <mi>L</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>L</mi> <mi>o</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>L</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <msub> <mi>L</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </math> (8)根据参考语音的响度Lo,测试语音的响度Lt和噪声掩蔽阈值Thn确定可感知失真标志M(i):(9)每帧失真D(i)由式给出: D(i)=a(i)M(i)|Lo-Lt|(10)重复步骤(1)~(9),计算整个语音段的失真WBSD,在安静段是否有语音失真不影响听觉质量,将每个非静音段的累加求和,按非静音帧的帧数取平均值,即得整个语音段的WBSD。<math> <mrow> <mi>WBSD</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>[</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>M</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mi>L</mi> <mi>o</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>L</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>]</mo> </mrow> </math> 其中, N:处理总帧数 K:临界带数 Lo(j)(i):参考语音第j帧Bark谱 Lt(j)(i):测试语音第j帧Bark谱
地址 430072湖北省武汉市武昌珞珈山