发明名称 |
一种宽频带语音质量客观评价方法 |
摘要 |
一种宽频带语音质量客观评价方法,被测语音和参考语音幅度归一化为均值为0,标准差为1的序列;记算50~7000Hz频带内临界带听阈;根据加窗语音帧的能量,计算安静帧阈值;对归一化后信号计算功率谱;在临界带内求和得到Bark谱;根据Bark谱,计算该语音帧的响度;归一化响度矢量;根据原语音的响度L<SUB>0</SUB>,编码语音的响度L<SUB>1</SUB>和噪声掩蔽阈值Th<SUB>n</SUB>确定可感知失真标志M(i);给出每帧失真;重复以上步骤,计算整个语音段的失真WBSD,在安静段是否有语音失真不影响听觉质量,将每个非静音段的累加求和,按非静音帧的帧数取平均值,即得整个语音段的WBSD。本发明能与主观质量测度保持较好的相关性,提高了精度。 |
申请公布号 |
CN1538667A |
申请公布日期 |
2004.10.20 |
申请号 |
CN200310111273.5 |
申请日期 |
2003.10.24 |
申请人 |
武汉大学 |
发明人 |
胡瑞敏;艾浩军;涂卫平 |
分类号 |
H04L12/24;H04L12/26;H04L29/02;H04M3/18 |
主分类号 |
H04L12/24 |
代理机构 |
武汉天力专利事务所 |
代理人 |
冯卫平;程祥 |
主权项 |
1.本发明提出了一种宽频带语音质量客观评价方法,其特征是包括下列步骤:(1)测试语音和参考语音幅度归一化为均值为0,标准差为1的序列;(2)计算50~7000Hz频带内临界带听阈;(3)根据加窗语音帧的能量,计算安静帧阈值,如果一帧语音的能量小于安静帧阈值,这一帧信号不参加质量评价。安静帧语音能量阈值EnSilenceTh为相比最大能量帧的能量EnMax,其能量低于15dB;(4)归一化后信号计算功率谱;(5)在临界带内求和得到Bark谱;(6)根据Bark谱,计算该语音帧的响度;(7)归一化响度矢量Li(i),归一化因子等于参考语音帧的响度L0(j)与测试语音帧的响度Li(j)之比,其中,K为临界带个数;<math> <mrow> <mover> <mrow> <msub> <mi>L</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mo>‾</mo> </mover> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>L</mi> <mi>o</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>L</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <msub> <mi>L</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </math> (8)根据参考语音的响度Lo,测试语音的响度Lt和噪声掩蔽阈值Thn确定可感知失真标志M(i):(9)每帧失真D(i)由式给出: D(i)=a(i)M(i)|Lo-Lt|(10)重复步骤(1)~(9),计算整个语音段的失真WBSD,在安静段是否有语音失真不影响听觉质量,将每个非静音段的累加求和,按非静音帧的帧数取平均值,即得整个语音段的WBSD。<math> <mrow> <mi>WBSD</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>[</mo> <munderover> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>M</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mi>L</mi> <mi>o</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>L</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>]</mo> </mrow> </math> 其中, N:处理总帧数 K:临界带数 Lo(j)(i):参考语音第j帧Bark谱 Lt(j)(i):测试语音第j帧Bark谱 |
地址 |
430072湖北省武汉市武昌珞珈山 |