发明名称 自动语音辨识用之最佳化局部特征抽取方法
摘要 将使声音语音信号分解为设置于不对称树状资料结构中的子波,而可从该树状资料结构中选出个别节点以最佳地抽取出局部特征,如模型化特定声音层级单元所需要一般。可透过积分来使子波封包转换变得平顺流畅,且在进行离散余弦转换之前,将先使子波封包压缩以施加非线性。所得的副波带特征,如逆谱系数,可随后用来建构语音辨识器的语音模型。使用以此种方式抽取出的局部特征资讯,将可使单一辨识器能针对多个不同声音层级单元而最佳化,进而减少对平行路径辨识器的需要。
申请公布号 TW546630 申请公布日期 2003.08.11
申请号 TW089124931 申请日期 2001.02.01
申请人 松下电器产业股份有限公司 发明人 鲁卡 瑞加锡欧;大卫 克莱塞;陶德 艾波宝;珍 克劳德 江奎
分类号 G10L15/00 主分类号 G10L15/00
代理机构 代理人 恽轶群 台北市松山区南京东路三段二四八号七楼;陈文郎 台北市松山区南京东路三段二四八号七楼
主权项 1.一种自动语音辨识用之特征抽取方法,其包含:利用一组子波来分解一声音语音信号,该组子波系组织为具有多个频率副波带节点之一资料结构中之一组子信号;对对应于每一节点之每一子信号计算一平均向量;界定并选出一子波基准以提升对特定层级声音的监别性;以及应用该基准到该组子波以自该等平均向量产生多个分解系数,其中该等分解系数代表从该声音语音信号中抽取出之特征。2.如申请专利范围第1项之方法,其另包含将该组子波表示为分解系数,且对该系数进行后处理以对其进行解联结与压缩。3.如申请专利范围第1项之方法,其中该声音语音信号系以数位形式进行取样与表现。4.如申请专利范围第1项之方法,其中该组子波系组织为树状结构。5.如申请专利范围第4项之方法,其中该树状结构为取自基础处理区块连锁的一种二元树状结构。6.如申请专利范围第5项之方法,其中该基础处理区块可进行向下取样之后的高通与低通滤波。7.如申请专利范围第4项之方法,其中该树状结构可界定出多个叶节点,而各个叶节点可备置分解系数。8.如申请专利范围第4项之方法,其中该树状结构可界定出一根节点,且其中该方法另包含连续地将该声音语音信号送入至该根节点。9.如申请专利范围第4项之方法,其中该树状结构可界定出多个叶节点,而该叶节点系被选出以使一业已决定的声音层级监别性最大化。10.如申请专利范围第1项之方法,其另包含在一个时间视窗上求得该分解系数的积分。11.如申请专利范围第1项之方法,其另包含对该分解系数进行一项非线性运算。12.如申请专利范围第11项之方法,其中该非线性运算包括压缩该分解系数。13.如申请专利范围第1项之方法,其另包含对该节点中选出的节点进行一项离散余弦转换,进而抽取出逆谱系数。14.如申请专利范围第1项之方法,其另包含藉着计算出各个节点上代表能量的一数値来选出该节点的一部份,并且如果计算出的数値在一业已决定的临界値之下的话,便修剪一节点。15.如申请专利范围第14项之方法,其中代表能量的该数値为一压缩能量。16.如申请专利范围第4项之方法,其另包含藉着计算出该节点中第一个节点的监别力来选出该节点的一部份,而如果该子节点的监别力总和少于该节点第一节点的监别力的话,便另计算出该节点第一节点之子节点的监别力且修剪该子节点。17.如申请专利范围第1项之方法,其包含产生第一多个分解系数以代表声音的第一层级且产生第二多个分解系数以代表声音的第二层级,并利用该第一与第二多个分解系数以产生用于语音辨识的第一组与第二组特定模型。18.如申请专利范围第17项之方法,其中该第一组与第二组特定模型系使用于多通组态中,藉此第一组模型可先与辨识结果一同使用,之后再利用第二组模型进行处理。19.如申请专利范围第17项之方法,其中该第一组与第二组特定模型系同时被使用,以满足对应于该第一与第二声音层级的辨识结果。20.如申请专利范围第17项之方法,其中该第一声音层级对应于声音广层之间的第一监别层,且其中该第二声音层级对应于声音窄层之间的第二监别层。图式简单说明:第1图为一个概观性硬体或软体方块图,其展示用以制造声音语音信号之子波封包转换的本发明的一较佳实施例。第2图展示在副波带分析中所进行之较佳时间频率分解。第3图为一较佳实施例的方块图,其根据本发明用以实行副波带特征抽取。第4图展示用以处理高通滤波器频叠效应的本发明较佳技术;以及第5图为一个流程图,其展示用以选出特定声音层级之最佳子波树状结构的程序。
地址 日本