基于共振峰频率的汉语普通话单韵母语音可视化方法,申请号CN200910235647.1-传众专利搜索

发明名称	基于共振峰频率的汉语普通话单韵母语音可视化方法
摘要	本发明为一种基于共振峰频率的汉语普通话单韵母语音可视化方法，包括对原始语音信号分帧、加窗，提取每帧信号的短时能量、共振峰频率、基音频率，采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误；利用共振峰频率将不同发音映射为不同色彩方面并修正：在图像上反应发音时间、能量、音调基音频率的变化趋势，利用色彩来区分不同汉语普通话单韵母发音。本发明只提取语音信号的短时能量、共振峰频率、基音频率几个简单的语音声学参数，易于实现；引入软判决，对于每个发音不做硬性判决，而是采用不同色彩表示，不同发音人同一个音的可视化效果求大同而存小异，这使得对于发音的判决更符合人的主观感知。
申请公布号	CN102176313B	申请公布日期	2012.07.25
申请号	CN200910235647.1	申请日期	2009.10.10
申请人	北京理工大学	发明人	赵胜辉;董欣玮;王晶;匡镜明
分类号	G10L21/06(2006.01)I	主分类号	G10L21/06(2006.01)I
代理机构	北京理工大学专利中心 11120	代理人	张利萍;高燕燕
主权项	基于共振峰频率的汉语普通话单韵母语音可视化方法，其特征在于：包括以下步骤：第一步：对原始语音信号分帧、加窗，提取每帧信号的短时能量、共振峰频率、基音频率；第二步：采用中值平滑方法纠正共振峰频率、基音频率个别数值的错误；第三步：利用共振峰频率将不同发音映射为不同色彩方面，采用以下公式： <mrow> <mi>r</mi> <mo>=</mo> <mn>0.9</mn> <mo></mo> <mrow> <mo>(</mo> <mn>0.0006</mn> <mo></mo> <msup> <mn>3</mn> <mrow> <mn>10</mn> <mo></mo> <mfrac> <mrow> <mi>F</mi> <mn>1</mn> </mrow> <mrow> <mi>F</mi> <mn>2</mn> </mrow> </mfrac> </mrow> </msup> <mo>+</mo> <mn>0.002</mn> <mo></mo> <msup> <mn>5</mn> <mfrac> <mrow> <mi>F</mi> <mn>3</mn> </mrow> <mrow> <mi>F</mi> <mn>2</mn> </mrow> </mfrac> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <mi>G</mi> <mo>=</mo> <mn>0.02</mn> <mo></mo> <msup> <mn>3</mn> <mfrac> <mrow> <mi>F</mi> <mn>3</mn> </mrow> <mrow> <mi>F</mi> <mn>2</mn> </mrow> </mfrac> </msup> <mo>+</mo> <mn>0.0003</mn> <mo></mo> <msup> <mn>80</mn> <mfrac> <mrow> <mi>F</mi> <mn>3</mn> <mo>-</mo> <mi>F</mi> <mn>1</mn> </mrow> <mn>2000</mn> </mfrac> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>B</mi> <mo>=</mo> <mn>0.0012</mn> <mo>*</mo> <msup> <mn>50</mn> <mfrac> <mrow> <mi>F</mi> <mn>3</mn> <mo>-</mo> <mi>F</mi> <mn>1</mn> </mrow> <mn>2000</mn> </mfrac> </msup> </mrow>其中，F1、F2、F3分别为每帧语音信号的前三个共振峰频率；第四步：对第三步所求出的RGB进行如下修正： <mrow> <mi>r</mi> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mi>R</mi> <mo>,</mo> <mi>R</mi> <mo>≤</mo> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> <mo>,</mo> <mi>R</mi> <mo>></mo> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> </mrow> <mrow> <mi>g</mi> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mi>G</mi> <mo>,</mo> <mi>G</mi> <mo>≤</mo> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> <mo>,</mo> <mi>G</mi> <mo>></mo> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>b</mi> <mo>=</mo> <mfenced open='{' close=''> <mtable> <mtr> <mtd> <mi>B</mi> <mo>,</mo> <mi>B</mi> <mo>≤</mo> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> <mo>,</mo> <mi>B</mi> <mo>></mo> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> </mrow>第五步：在图像上反应发音时间、能量、音调基音频率的变化趋势，利用色彩来区分不同汉语普通话单韵母发音。
地址	100081 北京市海淀区中关村南大街5号