发明名称 一种基于语音分段的孤立词识别方法
摘要 一种基于语音分段的孤立词识别方法,其语音训练所得的连续HMM模型是以音节或半音节作为基元,将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型,识别时采用Viterbi算法。其优点是:识别结果(即识别正确的孤立词)的每一小段HMM模型与待识语音的每一小段特征参数都能达到比较满意匹配,因此该方法可以提高识别性能;每次完成一个音节或半音节末尾状态的识别运算后都可以直接拒识掉概率值较小的孤立词,因此该方法可以提高识别响应时间。
申请公布号 CN101819772B 申请公布日期 2012.03.28
申请号 CN201010110518.2 申请日期 2010.02.09
申请人 中国船舶重工集团公司第七○九研究所 发明人 廖广锐;刘萍;汤磊
分类号 G10L15/14(2006.01)I 主分类号 G10L15/14(2006.01)I
代理机构 武汉金堂专利事务所 42212 代理人 胡清堂
主权项 1.一种基于语音分段的孤立词识别方法,其特征在于:其语音训练所得的连续HMM模型是以音节或半音节作为基元,将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型,识别时采用Viterbi算法;其具体步骤如下:(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元;(2)记录Δn1帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率,拒识其概率值小于指定阈值的孤立词,选出那些概率值比较大的孤立词作为下一次的匹配对象;具体的说,根据待识语音的特征参数,计算出第n1帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值P<sub>11</sub>,并且该最大概率值既大于待识语音停留在前一状态的最大概率值也大于待识语音停留在后一状态的最大概率值,P<sub>11</sub>为计算完对数的概率值,再判断后面的连续Δn1-1帧停留在第一个孤立词的第一个音节或半音节末尾状态是否也是最大概率及其概率值P<sub>1i</sub>,其中1<i<Δn1+1,其平均概率值按如下公式①计算:<img file="FSB00000703417900011.GIF" wi="683" he="143" />①P<sub>1i</sub>代表从第n1帧起第i帧数据停留在第一个孤立词的第一个音节或半音节末尾状态的最大概率;(3)依次类推,计算待识语音其它的帧停留在词表内未拒识的每个孤立词第二、第三……倒数第二个音节或半音节末尾状态的平均概率,并依次拒识 掉部分概率值比较小的孤立词;具体的说,计算待识语音第n2帧并连续Δn2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率<img file="FSB00000703417900021.GIF" wi="87" he="62" />其计算方法与计算公式与①式类似:<img file="FSB00000703417900022.GIF" wi="803" he="168" />②P<sub>2j</sub>代表从第n2帧起第j帧数据停留在第一个孤立词第二个音节或半音节末尾状态的最大概率;同理,计算出待识语音停留在其它孤立词的第二个音节或半音节末尾状态的平均概率,再拒识掉部分平均概率值小于某一指定阈值的孤立词;(4)计算待识语音最后几帧停留在词表内未拒识的每个孤立词的最后一个音节或半音节末尾状态的平均概率,并将最大平均概率值所代表的孤立词作为识别结果输出。 
地址 430074 湖北省武汉市珞喻路718号中国船舶重工集团公司第七○九研究所