发明名称 基于共振峰频率的汉语普通话单韵母语音可视化方法
摘要 本发明为一种基于共振峰频率的汉语普通话单韵母语音可视化方法,包括对原始语音信号分帧、加窗,提取每帧信号的短时能量、共振峰频率、基音频率,采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误;利用共振峰频率将不同发音映射为不同色彩方面并修正:在图像上反应发音时间、能量、音调基音频率的变化趋势,利用色彩来区分不同汉语普通话单韵母发音。本发明只提取语音信号的短时能量、共振峰频率、基音频率几个简单的语音声学参数,易于实现;引入软判决,对于每个发音不做硬性判决,而是采用不同色彩表示,不同发音人同一个音的可视化效果求大同而存小异,这使得对于发音的判决更符合人的主观感知。
申请公布号 CN102176313B 申请公布日期 2012.07.25
申请号 CN200910235647.1 申请日期 2009.10.10
申请人 北京理工大学 发明人 赵胜辉;董欣玮;王晶;匡镜明
分类号 G10L21/06(2006.01)I 主分类号 G10L21/06(2006.01)I
代理机构 北京理工大学专利中心 11120 代理人 张利萍;高燕燕
主权项 基于共振峰频率的汉语普通话单韵母语音可视化方法,其特征在于:包括以下步骤:第一步:对原始语音信号分帧、加窗,提取每帧信号的短时能量、共振峰频率、基音频率;第二步:采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误;第三步:利用共振峰频率将不同发音映射为不同色彩方面,采用以下公式: <mrow> <mi>r</mi> <mo>=</mo> <mn>0.9</mn> <mo>*</mo> <mrow> <mo>(</mo> <mn>0.0006</mn> <mo>*</mo> <msup> <mn>3</mn> <mrow> <mn>10</mn> <mo>*</mo> <mfrac> <mrow> <mi>F</mi> <mn>1</mn> </mrow> <mrow> <mi>F</mi> <mn>2</mn> </mrow> </mfrac> </mrow> </msup> <mo>+</mo> <mn>0.002</mn> <mo>*</mo> <msup> <mn>5</mn> <mfrac> <mrow> <mi>F</mi> <mn>3</mn> </mrow> <mrow> <mi>F</mi> <mn>2</mn> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <mi>G</mi> <mo>=</mo> <mn>0.02</mn> <mo>*</mo> <msup> <mn>3</mn> <mfrac> <mrow> <mi>F</mi> <mn>3</mn> </mrow> <mrow> <mi>F</mi> <mn>2</mn> </mrow> </mfrac> </msup> <mo>+</mo> <mn>0.0003</mn> <mo>*</mo> <msup> <mn>80</mn> <mfrac> <mrow> <mi>F</mi> <mn>3</mn> <mo>-</mo> <mi>F</mi> <mn>1</mn> </mrow> <mn>2000</mn> </mfrac> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>B</mi> <mo>=</mo> <mn>0.0012</mn> <mo>*</mo> <msup> <mn>50</mn> <mfrac> <mrow> <mi>F</mi> <mn>3</mn> <mo>-</mo> <mi>F</mi> <mn>1</mn> </mrow> <mn>2000</mn> </mfrac> </msup> </mrow>其中,F1、F2、F3分别为每帧语音信号的前三个共振峰频率;第四步:对第三步所求出的RGB进行如下修正: <mrow> <mi>r</mi> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mi>R</mi> <mo>,</mo> <mi>R</mi> <mo>&le;</mo> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> <mo>,</mo> <mi>R</mi> <mo>></mo> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> </mrow> <mrow> <mi>g</mi> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mi>G</mi> <mo>,</mo> <mi>G</mi> <mo>&le;</mo> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> <mo>,</mo> <mi>G</mi> <mo>></mo> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>b</mi> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mi>B</mi> <mo>,</mo> <mi>B</mi> <mo>&le;</mo> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> <mo>,</mo> <mi>B</mi> <mo>></mo> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> </mrow>第五步:在图像上反应发音时间、能量、音调基音频率的变化趋势,利用色彩来区分不同汉语普通话单韵母发音。
地址 100081 北京市海淀区中关村南大街5号