发明名称 一种语音识别的特征向量量化快速收敛方法
摘要 本发明为大规模孤立词语音识别的特征向量量化提供了一种快速收敛的方法,能比较快的建立码本。本发明的方法解决了一般特征向量由于词汇量大而导致码本建立过程慢的缺点,实验结果表明,相比较于模拟退火算法,该发明的码本建立过程中运算的迭代次数减小了一个10的量级,同时消除了除法运算和大量的乘法运算。
申请公布号 CN104064181A 申请公布日期 2014.09.24
申请号 CN201410281283.1 申请日期 2014.06.20
申请人 哈尔滨工业大学深圳研究生院 发明人 刘明;王明江
分类号 G10L15/06(2013.01)I;G10L15/14(2006.01)I 主分类号 G10L15/06(2013.01)I
代理机构 深圳市科吉华烽知识产权事务所(普通合伙) 44248 代理人 陈本发;刘显扬
主权项 一种语音识别的特征向量量化快速收敛方法,其特征在于:所述方法包括以下步骤:(1)使用LBG算法对语音特征向量进行训练,产生初始码本,码本的个数与训练用词库中词的个数相同;(2)从词库中随机选一个词,将其标识为A,该词经特征参数提取后,和所有码本按照下式进行平均量化误差D<sup>i</sup>的计算,<maths num="0001" id="cmaths0001"><math><![CDATA[<mfenced open='' close=''><mtable><mtr><mtd><msup><mi>D</mi><mi>i</mi></msup><mo>=</mo><mfrac><mn>1</mn><mi>T</mi></mfrac><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><mi>min</mi><mrow><mo>(</mo><mo>|</mo><mo>|</mo><msub><mi>X</mi><mi>t</mi></msub><mo>-</mo><msubsup><mi>C</mi><mi>j</mi><mi>i</mi></msubsup><mo>|</mo><mo>|</mo><mo>)</mo></mrow><mo>,</mo></mtd><mtd><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&le;</mo><mi>M</mi><mo>;</mo></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000524493710000011.GIF" wi="877" he="128" /></maths>其中,T是一个词的有效语音帧的帧数,<img file="FDA0000524493710000012.GIF" wi="70" he="82" />是子簇的中心向量;如果词语B的码本给出最小的范数,则进行步骤(3),否则进行步骤(4);(3)对每一个词的每一帧特征向量Xt,找出其在词A的簇中的距离它最近的子簇,该子簇的中心向量用<img file="FDA0000524493710000013.GIF" wi="71" he="73" />表示;找出Xt在词B的簇中的距离它最近的子簇,该子簇的中心向量用<img file="FDA0000524493710000014.GIF" wi="66" he="74" />表示,距离分别用D<sup>A</sup>、D<sup>B</sup>表示;如果(D<sup>A</sup>‑D<sup>B</sup>)/D<sup>A</sup>&lt;δ,则按照下式改变对应子簇的中心向量:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msubsup><mi>C</mi><mi>m</mi><mi>A</mi></msubsup><mo>=</mo><msubsup><mi>C</mi><mi>m</mi><mi>A</mi></msubsup><mo>+</mo><mi>&alpha;</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>t</mi></msub><mo>-</mo><msubsup><mi>C</mi><mi>m</mi><mi>A</mi></msubsup><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000524493710000015.GIF" wi="470" he="94" /></maths>如果(D<sup>A</sup>‑D<sup>B</sup>)/D<sup>A</sup>&gt;δ,则按照下式改变对应子簇的中心向量:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msubsup><mi>C</mi><mi>m</mi><mi>B</mi></msubsup><mo>=</mo><msubsup><mi>C</mi><mi>m</mi><mi>B</mi></msubsup><mo>+</mo><mi>&alpha;</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>t</mi></msub><mo>-</mo><msubsup><mi>C</mi><mi>m</mi><mi>B</mi></msubsup><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000524493710000016.GIF" wi="470" he="94" /></maths>其中δ是预先定义的一个阈值,α是一个可变量,α随着迭代次数的增加而减小;(4)在该情况下,词A被正确识别,只需要调整词A的码本的子簇的中心向量,对每一帧的帧向量Xt,按照下式进行跳帧<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msubsup><mi>C</mi><mi>m</mi><mi>A</mi></msubsup><mo>=</mo><msubsup><mi>C</mi><mi>m</mi><mi>A</mi></msubsup><mo>+</mo><mi>&beta;</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>t</mi></msub><mo>-</mo><msubsup><mi>C</mi><mi>m</mi><mi>A</mi></msubsup><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000524493710000017.GIF" wi="477" he="78" /></maths>其中,β是一个预先定义的可变量,β随着迭代次数的增加而递减;(5)返回步骤(2),进行迭代,直到(4)=δ或β=0。
地址 518000 广东省深圳市南山区西丽镇深圳大学城哈工大校区