发明名称 以线性预测码激发为基础之语音系统的语音处理方法
摘要 一种在一以线性预测码激发(Code Excitation Linear Prediction,CELP)为基础之语音系统的语音处理方法,该语音系统具备多种模式,其中至少包括一个第一模式及一连贯于第一模式之第二模式,该方法包括提供一输入语音信号,分割语音讯号成多个讯框,将至少一讯框分割成包含多个脉冲之多个子讯框,选择第一数目之脉冲给第一模式,及在此讯框中的第二数目之剩余脉冲加上在第一模式之第一数目的脉冲给第二模式,提供多种子模式于第一模式及第二模式间,形成一基本层,形成一加强层,产生一位元流包含一基本位元流及一加强位元流,其中,该基本层位元流系用以更新语音系统之记忆体状态。
申请公布号 TWI233591 申请公布日期 2005.06.01
申请号 TW092125824 申请日期 2003.09.18
申请人 财团法人工业技术研究院 发明人 李逸仙;陈芳祝
分类号 G10L15/04 主分类号 G10L15/04
代理机构 代理人
主权项 1.一种在一以线性预测码激发为基础之语音系统的语音处理方法,该语音系统具备多种模式,至少包括一个第一模式及一连贯于第一模式之第二模式,该方法包括:提供一输入语音信号;分割语音讯号成多个讯框;将至少一讯框分割成包含多个脉冲之多个子讯框;选择第一数目之脉冲给第一模式,及在此讯框中的第二数目之剩余脉冲加上在第一模式之第一数目的脉冲给第二模式;提供介于第一模式及第二模式之间的多个子模式,其中,每个子模式包含一第三数目脉冲,其包括至少第一模式中之所有脉冲,且其中,该子模式之第三数目脉冲系由第二模式中截去一部分脉冲所选择;形成一基本层,其包含第一数目之脉冲;形成一加强层,其包含第二数目之剩余脉冲;产生一位元流,其包含一基本位元流及一加强位元流,包括产生线性预测编码系数,产生音高相关资讯,产生脉冲相关资讯,形成基本层位元流,其包括线性预测编码系数、音高相关资讯、及基本层脉冲之脉冲相关资讯,及形成加强层位元流,其包括加强层脉冲之脉冲相关资讯,其中,该基本层位元流系用以更新语音系统之记忆体状态。2.如申请专利范围第1项所述之方法,其中,该线性预测编码系数及音高相关资讯系用以更新语音系统之记忆体状态。3.如申请专利范围第1项所述之方法,其中,该基本层脉冲之脉冲相关资讯系用以更新语音系统之记忆体状态。4.如申请专利范围第1项所述之方法,其中,产生脉冲相关资讯系基于固定性码簿,产生音高相关资讯系基于调适性码簿,当中,该调适性码簿只包含在基本层位元流之资讯。5.如申请专利范围第1项所述之方法,其中,产生音高相关资讯及产生脉冲相关资讯是用于最小化目标及合成语音间之差値。6.如申请专利范围第5项所述之方法,其中,对于每一讯框之脉冲,该最小化合成语音与目标讯号间差异之步骤系循环一次以产生音高相关资讯与第二数目脉冲之第二模式脉冲相关资讯,来自第二模式之第一数目脉冲用以形成该第一模式,来自第二模式之第三数目脉冲用以形成该等子模式。7.如申请专利范围第6项所述之方法,其中,每一子模式之第三数目脉冲系由第二模式之第二数目脉冲中截去至少一脉冲所形成,而无经过最小化步骤。8.如申请专利范围第6项所述之方法,其中,在第一模式中之第一数目脉冲系由子模式之第三数目脉冲中截去至少一脉冲所选择,而无经过最小化步骤。9.如申请专利范围第1项所述之方法,其中,介于第一模式及第二模式之间的每一子模式对应一第二位元流,其中,该第二位元流系由包括基本位元流和选择一部份加强位元流所形成。10.如申请专利范围第9项所述之方法,其中,第二位元流包括每个子模式脉冲之第三数目脉冲之脉冲相关资讯,其中,该第三数目依附于可用之通道频宽。11.如申请专利范围第1项所述之方法,其中,该多个子模式包括至少一第一子模式及一第二子模式,其中,第一子模式之第三数目脉冲系由第二模式之第二数目脉冲中截去至少一脉冲所选择,且第二子模式之第三数目脉冲系由第一子模式之第三数目脉冲中截去至少一脉冲所选择。12.如申请专利范围第10项所述之方法,其中,所有第三数目脉冲参与合成结果分析程序。13.如申请专利范围第11项所述之方法,其中,介于第二模式及一第一子模式之间及介于两个连续子模式之间所截去之脉冲系来自交替之子讯框。14.如申请专利范围第13项所述之方法,其中,由该第二模式截断以建立第一子模式之第三数目脉冲的脉冲系来自该第一子讯框,且由该第一子模式截断以建立第二子模式之第三数目脉冲的脉冲系来自该第三子讯框。15.如申请专利范围第11项所述之方法,其中,被截断之脉冲系用以传送非声音资料。16.一种在具有固定位元速率之语音通道上传送非声音资料并同声音资料之方法,包括:提供一数量之非声音资料;提供一语音讯号以在语音通道上传送;分割语音讯号成多个讯框;将至少一讯框分割成包含多个脉冲之多个子讯框;选择第一数目之脉冲给第一模式,及在此讯框中的第二数目之剩余脉冲加上在第一模式之第一数目的脉冲给第二模式;提供介于第一模式及第二模式之间的多个子模式,其中,每个子模式包含一第三数目脉冲,其包括至少第一模式中之所有脉冲,其中,该子模式之第三数目脉冲系由第二模式中截去一部分脉冲所选择;形成一基本层,其包含第一数目之脉冲;形成一加强层,其包含第二数目之脉冲;形成一第一位元流,其包含一基本位元流及一加强位元流,包括产生线性预测编码系数,产生音高相关资讯,产生所有第二数目脉冲之脉冲相关资讯,形成基本层位元流,其包括线性预测编码系数、音高相关资讯、及基本层脉冲之脉冲相关资讯,选择一子模式,及形成加强层位元流,其包括在所选择子模式之脉冲的脉冲相关资讯;形成一具有固定位元率之第二位元流,其包含第一位元流和一数量之非声音资料;及传送该第二位元流。17.如申请专利范围第16项所述之方法,其中,该语音通道为一在AMR-WB系统之通道,该第一模式及第二模式系为AMR-WB系统之标准模式。18.如申请专利范围第17项所述之方法,其中,所选择子模式之所有第一位元流系用以更新AMR-WB系统之记忆体状态。19.如申请专利范围第16项所述之方法,其中,每一子模式之第二位元流包括一第三数目脉冲之脉冲相关资讯,且第三数目脉冲包括所有第一数目脉冲,且系由第二数目脉冲中截去第四数目脉冲所选择。20.如申请专利范围第18项所述之方法,更包括:提供一数量之非声音资料;及以该非声音资料调变所选择子模式之被截去的第四数目脉冲,传送经调变之第四数目截去脉冲。21.如申请专利范围第18项所述之方法,其中,第一子模式之第三数目脉冲系由第二模式中截去一或多个脉冲所选择,且一接续子模式之第三数目脉冲系由先前子模式中截去一或多个脉冲所选择。22.如申请专利范围第21项所述之方法,其中,介于第二模式及一第一子模式之间及介于两个连续子模式之间的截去脉冲系来自交替之子讯框。23.如申请专利范围第21项所述之方法,其中,由该第二模式截断以建立第一子模式之第三数目脉冲的脉冲系来自该第一子讯框,且由该第一子模式截断以建立第二子模式之第三数目脉冲的脉冲系来自该第三子讯框。图式简单说明:图1系本发明一较佳实施例之语音编码方块图。图2系本发明一较佳实施例之语音编码流程图。图3系本发明一较佳实施例之语音解码方块图。图4系本发明一较佳实施例之语音解码流程图。图5系本发明细微可调性阶层化编码发始可提供之位元调整范围及相对应重建语音品质图。图6系本发明之编码程序之另一较佳实施例的流程图。图7系本发明之解码程序之另一较佳实施例的流程图。图8系依据图6之编码程序将位元流重新分配原则的范例。图9系由一般性的线性预测码激发之细微可调性语音编码方案所提供之较高之可调变范围范例图形。图10系修正为在声音频带嵌入非声音资料之编码程序的流程图。图11系显示在固定有限之可用频宽下于声音频带中配置非声音资料的图形。图12系显示以一符合本发明之方法所产生之AMR-WB标准之某些子模式的模拟结果之图形。
地址 新竹县竹东镇中兴路4段195号