发明名称 具倒频谱杂讯消去之语音辨识系统及方法
摘要
申请公布号 TWI356399 申请公布日期 2012.01.11
申请号 TW096148135 申请日期 2007.12.14
申请人 财团法人工业技术研究院 发明人 黄世明
分类号 G10L15/12 主分类号 G10L15/12
代理机构 代理人 蔡东贤 台北市松山区敦化北路201号7楼
主权项 一种具倒频谱杂讯消去之语音辨识系统,包括:一滤波器库能量抽取器,用以依据一语音讯号,取得复数个第一特征参数向量,其中该等第一特征参数向量为对数梅尔滤波器库能量特征参数向量;一倒频谱杂讯消去装置,用以取得一设定音框之第一特征参数向量及该设定音框之前复数个音框之第一特征参数向量,以计算一特征参数均值向量,并依据该设定音框之第一特征参数向量、该特征参数均值向量、一第一纯量系数及一第二纯量系数,计算一设定音框之第二特征参数向量,其中该第一纯量系数系介于0.01至0.99之间,该第二纯量系数系介于0.01至0.99之间;一倒频谱转换器,用以将该设定音框之第二特征参数向量转换至倒频谱特征参数向量;一模型训练器,用以依据该倒频谱特征参数向量,计算得模型参数;及一语音辨识器,用以依据该倒频谱特征参数向量及该模型参数,计算得经辨识之语音讯号。如请求项1之语音辨识系统,其中该倒频谱杂讯消去装置包括:一特征参数均值向量计算装置,用以取得该设定音框之第一特征参数向量及该设定音框之前复数个音框之第一特征参数向量,以计算该特征参数均值向量;一第一乘法器,用以将该特征参数均值向量乘以该第一纯量系数之负数,计算得一第一乘法结果;一第一加法器,用以将该设定音框之第一特征参数向量加该第一乘法结果,计算得一加法结果,其中该加法结果大于该第二乘法结果时,该设定音框之第二特征参数向量为该加法结果;该加法结果小于该第二乘法结果时,该设定音框之第二特征参数向量为该第二乘法结果;一第二乘法器,用以将该设定音框之第一特征参数向量乘以该第二纯量系数,计算得一第二乘法结果;一比较器,用以比较该加法结果是否大于该第二乘法结果,并输出一控制讯号;及一多工器,依据该控制讯号,切换控制该设定音框之第二特征参数向量为该加法结果或该第二乘法结果。如请求项2之语音辨识系统,其中该特征参数均值向量计算装置包括:复数个延迟器,每一个延迟器用以延迟一单位时间,以取得该设定音框之前复数个音框之第一特征参数向量;一第二加法器,用以加总该等第一特征参数向量,以计算得第一特征参数向量加总结果;及一第三乘法器,用以将该第一特征参数向量加总结果乘以该等音框个数之倒数,以计算该特征参数均值向量。如请求项2之语音辨识系统,其中该特征参数均值向量计算装置系利用几何平均、中位数、众数或范数等均值计算方法计算该特征参数均值向量。如请求项1之语音辨识系统,其中该设定音框之前复数个音框之个数为2至一句子之总音框数之间。如请求项1之语音辨识系统,另包括一差分运算器,用以计算倒频谱特征参数向量之一阶差分、一阶差分及二阶差分、或一阶差分至高阶差分。如请求项1之语音辨识系统,其中该滤波器库能量抽取器为对数梅尔滤波器库能量抽取器。如请求项7之语音辨识系统,其中该倒频谱转换器为离散余弦转换器。一种具倒频谱杂讯消去之语音辨识方法,包括以下步骤:依据一语音讯号,取得复数个第一特征参数向量,其中该等第一特征参数向量为对数梅尔滤波器库能量特征参数向量;取得一设定音框之第一特征参数向量及该设定音框之前复数个音框之第一特征参数向量,以计算一特征参数均值向量;依据该设定音框之第一特征参数向量、该特征参数均值向量、一第一纯量系数及一第二纯量系数,计算一设定音框之第二特征参数向量,其中该第一纯量系数系介于0.01至0.99之间,该第二纯量系数系介于0.01至0.99之间;将该设定音框之第二特征参数向量转换至倒频谱特征参数向量;依据该倒频谱特征参数向量,计算得模型参数;及依据该倒频谱特征参数向量及该模型参数,计算得经辨识之语音讯号。如请求项9之语音辨识方法,其中计算该设定音框之第二特征参数向量之步骤中,另包括以下步骤:取得该设定音框之第一特征参数向量及该设定音框之前复数个音框之第一特征参数向量,以计算该特征参数均值向量;将该特征参数均值向量乘以该第一纯量系数之负数,计算得一第一乘法结果;将该设定音框之第一特征参数向量加该第一乘法结果,计算得一加法结果,其中该加法结果大于该第二乘法结果时,该设定音框之第二特征参数向量为该加法结果;该加法结果小于该第二乘法结果时,该设定音框之第二特征参数向量为该第二乘法结果;将该设定音框之第一特征参数向量乘以该第二纯量系数,计算得一第二乘法结果;比较该加法结果是否大于该第二乘法结果,并输出一控制讯号;及依据该控制讯号,切换控制该设定音框之第二特征参数向量为该加法结果或该第二乘法结果。如请求项9之语音辨识方法,其中计算该特征参数均值向量之步骤,另包括以下步骤:利用复数个延迟器,每一个延迟器用以延迟一单位时间,以取得该设定音框之前复数个音框之第一特征参数向量;加总该等第一特征参数向量,以计算得第一特征参数向量加总结果;及将该第一特征参数向量加总结果乘以该等音框个数之倒数,以计算该特征参数均值向量。如请求项9之语音辨识方法,其中系利用几何平均、中位数、众数或范数等均值计算方法计算该特征参数均值向量。如请求项9之语音辨识方法,另包括一差分运算步骤,用以计算倒频谱特征参数向量之一阶差分、一阶差分及二阶差分、或一阶差分至高阶差分。如请求项9之语音辨识方法,其中该倒频谱特征参数向量为梅尔倒频谱特征参数向量。
地址 新竹县竹东镇中兴路4段195号