主权项 |
1、一种中文词音识别方法,包括以下的步骤:(a)取得第一组数据库,其中该第一组数据库包括一组含N个中文词的词汇集,此词汇集以W=(W1,W2,…,WN}表示,每个词Wi有个发声模型Mi,此模型由字音模型串接而成,字音模型的集合以{C1,C2,C3…}表示,每个字音模型Ci是由声母模型后接一韵母模型形成,其中声母模型可能空缺,声母模型及韵母模型均以统计模型表示;(b)取得第二组数据库,其中该第二组数据库包括一组J个声母模型mlj(j=1,2,…,J)及另一组K个韵母模型mFk(k=1,2,…,K);(c)接收一输入语音信号A;(d)将输入语音信号切割成l个段落(segnent),其中该l为一整数,而输入语音信号可以以下式表示 A=([sl1]sF1)([Sl2]SF2)…([sl1]SF1)其中sli(i=1,2,…,l)为声母子段落,而sFi(i=1,2,l)为韵母子段落,[]表示有些声母子段落可能为空段落;(e)对词汇W中的每一个词长为l的词Wn,此词的发声模型为Mn=([mln1]mFn1)([mln2]mFn2)…([mln1]mFnl),由下式计算logProb(Wn),<math> <mrow> <mrow> <mi>log</mi> <mi>Prob</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> </mrow> <mrow> <mo>(</mo> <mi>log</mi> <mi>Prob</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>r</mi> <mi>l</mi> </msubsup> <mo>|</mo> <msubsup> <mi>m</mi> <mi>nr</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <mi>log</mi> <mi>Prob</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>r</mi> <mi>F</mi> </msubsup> <mo>|</mo> <msubsup> <mi>m</mi> <mi>nr</mi> <mi>F</mi> </msubsup> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow> </math> ;(f)在词汇W中找X个词,这些词的logProb(Wn)值在词汇W中的所有词的logProb(Wn)值中为前X个最大值,设这些X个词的集合为W’;(g)对每个在词汇W’内的词Wn,计算Prob(A|Mn)(n=1,2,…,X),即在已知Mn模型下产生A的概率;及(h)输出识别出的词Wx,其中<math> <mrow> <mi>x</mi> <mo>=</mo> <mi>a</mi> <mi>rg</mi> <munder> <mi>M</mi> <mi>n</mi> </munder> <mi>ax</mi> <mrow> <mo>(</mo> <mi>Prob</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>|</mo> <msub> <mi>M</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mi>n</mi> <mo>=</mo> <mn>1,2</mn> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <mi>X</mi> </mrow> </math> 。 |