发明名称 用以改善在噪音环境及频率失配情形中之声音辨识之系统和方法
摘要 一种方法及系统,藉由改善声音辨识系统10之声音辨识器以改善声音辨识。巴克(bark)振幅之放大因数律压缩20系用以降低添加性噪音效应,因而改善声音辨识系统之准确性。巴克振幅之A-律压缩21系用以改善声音辨识器之准确性。放大因数律压缩20及放大因数扩展22皆可用于声音辨识器中以改善声音辨识器之准确性。A-律压缩21及A-律扩展皆可用在声音辨识,以改善声音辨识器之准确性。
申请公布号 TW526469 申请公布日期 2003.04.01
申请号 TW090126583 申请日期 2001.10.26
申请人 奎康公司 发明人 哈里纳斯 格拉达卓
分类号 G10L21/00 主分类号 G10L21/00
代理机构 代理人 陈长文 台北市松山区敦化北路二○一号七楼
主权项 1.一种分散声音辨识系统之声音辨识器,包含:一巴克振幅产生模组,其架构以转换一数位化信号至巴克振幅;一-Log压缩模组耦合至巴克振幅产生模组,-Log压缩模组系架构以实施巴克振幅之-Log压缩;一RASTA滤波模组耦合至-Log压缩模组,RASTA滤波模组系架构以RASTA滤波-Log巴克振幅;及一倒频(cepstral)转换模组,耦合至RASTA滤波模组,该倒频转换模组系架构以产生j个静态倒频系数及j个动态倒频系数。2.如申请专利范围第1项之声音辨识器,进一步包含一背端,其架构以处理j个静榻倒频系数及j个动榻倒频系数并产生一辨识假设。3.如申请专利范围第1项之声音辨识器,其中该-Log为G.711-Log压缩。4.如申请专利范围第1项之声音辨识器,其中该巴克振幅产生模组系架构以在每一T毫秒转换数位化语音信号为k巴克振幅。5.如申请专利范围第4项之声音辨识器,其中该频转换模组系架构以在T秒内产生j个静态倒频系数及j个动态倒频系数。6.如申请专利范围第4项之声音辨识器,其中该k等于16。7.如申请专利范围第5项之声音辨识器,其中该T等于10。8.一种分散声音辨识系统之声音辨识器,包含:一巴克振幅产生模组,其架构以转换一数位化语音信号为巴克振幅;一A-Log压缩模组,耦合至巴克振幅产生模组,该A-Log压缩模组系架构以执行巴克振幅之A-Log压缩;一RASTA滤波模组耦合至A-Log压缩模组,该RASTA滤波模组系架构以RASTA滤波此A-Log巴克振幅;及一倒频转换模组耦合至RASTA滤波模组,该倒频转换模组系架构以产生j个静态倒频系数及j个动态倒频系数。9.如申请专利范围第8项之声音辨识器,进一步包含一背端,其架构以处理j个静态挡频系数及j个动态倒频系数以产生辨识假设。10.如申请专利范围第8项之声音辨识器,其中该-Log压缩为G.711-Log压缩。11.如申请专利范围第8项之声音辨识器,其中该巴克振幅产生模组系架构以在每一T毫秒转换一数位化之信号为k巴克振幅。12.如申请专利范围第11项之声音辨识器,其中该倒频转换模组系架构以在每一T秒,产生j个静态倒频系数及j个动态倒频系数。13.如申请专利范围第11项之声音辨识器,其中该k等于16。14.如申请专利利范围第12项之声音辨识器,其中该T等于10。15.一种分散声音辨识系统之声音辨识器,包含:一巴克振幅产生模组,其架构以转换一数位化之语音信号为巴克振幅;一-Log压缩模组,耦合至巴克振幅产生模组,该-Log压缩模组系架构以实施巴克振幅之-Log压缩。一RASTA滤波模组耦合至-Log压缩模组,该RASTA滤波模组系架构以将-Log巴克振幅作RASTA滤波;及一-Log扩展模组耦合至RASTA滤波模组,该-Log扩展模组系架构以实施-Log扩展于滤波之-Log巴克振幅。16.如申请专利范围第15项之声音辨识器,进一步包含一背端,其架构以处理扩展之巴克振幅并产生一辨识假设。17.如申请专利范围第15项之声音辨识器,其中该-Log压缩及扩展为G.711-Log压缩及扩展。18.如申请专利范围第15项之声音辨识器,其中该巴克振幅产生模组系架构以转换一数位化语音信号为k个扩展之巴克振幅。19.如申请专利范围第18项之声音辨识器,其中该-Log扩展模组系架构以扩展滤波之-Log巴克振幅为k个扩展之巴克振幅。20.如申请专利范围第18项之声音辨识器,其中该k等于16。21.如申请专利范围第19项之声音辨识器,其中该T等于10。22.一种分散声音辨识系统之声音辨识器,包含:一巴克振幅产生模组,其架构以转换一数位化信号为巴克振幅;一A-Log压缩模组耦合至巴克振幅产生模组,此A-Log压缩模组系架构以实施巴克振幅之A-Log压缩;一RASTA滤波模组耦合至A-Log压缩模组,此RASTA滤波模组系架构以作RASTA滤波于A-Log巴克振幅;一A-Log扩展模组耦合至RASTA滤波模组,此A-Log扩展模组系架构以实施A-Log扩展于滤波之-Log巴克振幅。23.如申请专利范围第22项之声音辨识器,进一步包含一背端,其架构以处理扩展之巴克振服并产生辨识假设。24.如申请专利范围第22项之声音辨识器,其中该A-Log压缩及扩展为G.711A-Log压缩及扩展。25.如申请专利范围第22项之声音辨识器,其中该巴克振幅产生模组系架构以在每一T毫秒转换数位化语音信号为k个巴克振幅。26.如申请专利范围第25项之声音辨识器,其中该A-Log扩展模组系架构以扩展滤波之A-Log巴克振幅为k个扩展之巴克振幅。27.如申请专利范围第25项之声音辨识器,其中该k等于16。28.如申请专利范围第27项之声音辨识器,其中该T等于10。29.一种处理声音辨识之声音辨识器之方法,包含:转换数位语音信号为巴克振幅;-Log压缩巴克振幅;RASTA滤波-Log巴克振幅;及倒频转换-Log巴克振幅为j个静态倒频系数及j个动态倒频系数。30.如申请专利范围第29项之方法,其中该-Log压缩为G711为-Log压缩。31.如申请专利范围第29项之方法,其中该转换包括在每一T毫秒转换数位化信号为k个巴克振幅。32.如申请专利范围第31项之方法,其中该转换包括在每一T毫秒内倒频转换-Log巴克振幅为j个静态倒频系数及j个动态倒频系数。33.如申请专利范围第31项之方法,其中该k等于16。34.如申请专利范围第32项之方法,其中该T等于10。35.一种声音辨识之方法,包含;转换一数位化之语音信号为巴克振幅;-Log压缩巴克振幅;RASTA滤波-Log巴克振幅;倒频转换-Log巴克振幅为j个静态倒频系数及j个动态倒频系数;及根据j个静态倒频系数及j个动态倒频系数产生一辨识假设。36.一种辨识声音之方法,包含:转换一数位化之语音信号为巴克振幅;A-Log压缩巴克振幅;RASTA滤波A-Log巴克振幅;倒频转换A-Log巴克振幅为j个静态倒频系数及j个动态倒频系数。37.如申请专利范围第36项之方法,其中该A-Log压缩为G711A-Log压缩。38.如申请专利范围第36项之方法,其中该转换包括在T毫秒转换数位语音信号为k个巴克振幅。39.如申请专利范围第31项之方法,其中该转换包括在每一T毫秒内倒频转换A-Log巴克振幅为j个静态倒频系数及j个动态倒频系数。40.如申请专利范围第31项之方法,其中该k等于16。41.如申请专利范围第32项之方法,其中该T等于10。42.一种声音辨识之方法,包含:转换一数位化语音信号为巴克振幅;A-Log压缩巴克振幅;RASTA滤波A-Log巴刻振幅;倒频转换A-Log巴克振幅为j个静态倒频系数节j个动态倒频系数;及根据j个静态倒频系树及j个动态倒频系数以产生一辨识假设。43.一种声音辨识之方法,包含;转换一数位化语音信号为巴克振幅;-Log压缩巴克振幅;RASTA滤波-Log巴克振幅;-Log扩展滤波之-Log巴克振幅。44.如申请专利范围第43项之方法,其中该-Log压缩为G.711-Log压缩。45.如申请专利范围第43项之方法,其中该转换包括在T毫秒内转换数位化语音信号为k个巴克振幅。46.如申请专利范围第45项之方法,其中该k等于16。47.如申请专利范围第46项之方法,其中该T等于10。48.一种声音辨识之方法,包含;转换一数位化语音信号为巴克振幅;-Log压缩该巴克振幅;RASTA滤波该-Log巴克振幅;-Log扩展该滤波之-Log巴克振幅;及根据扩展之-Log巴克振幅,产生一辨识假设。49.一种声音辨识方法,包含:转换数位化之语音信号为巴克振幅;A-Log压缩巴克振幅;RASTA滤波该A-Log巴克振幅;及A-Log扩展滤波之A-Log巴克振幅。50.如申请专利范围第49项之方法,其中该A-Log压缩为G711A-Log压缩。51.如申请专利范围第49项之方法,其中该转换包括在每一T毫秒转换数位语音信号为k个巴克振幅。52.如申请专利范围第51项之方法,其中该k等于16。53.如申请专利范围第52项之方法,其中该T等于10。54.一种声音辨识之方法,包含:转换一数位化之语音信号为巴克振幅;A-Log压缩巴克振幅;RASTA滤波A-Log巴克振幅;A-Log扩展滤波之A-Log巴克振幅;根据扩展之A-Log巴克振幅以产生一辨识假设。图式简单说明:图1为VR系统中之典型VR前端;图2为一VR系统之Hidden Markov Model(HMM)之前端;图3为具有放大因数律缩展计划而非对数压缩之前端;图4为具有A-律缩展计划而非对数压缩之前端;图5为Log10( )函数及放大因数-Log函数固定点实施之曲线,其中C = 50;图6为利用放大因数压缩及放大因数律扩展之一实施例之前端;图7为利用A-律压缩及A-律扩展之实施例之前端。
地址 美国