发明名称 在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法
摘要 为了改善自动语言识别系统的识别率,采用了统计的语言模型。利用所说的方法利用小文本数量或完全不用文本来构造语言模型是可行的。语言类别被构造并且该语言模型,也就是单词序列的α-优先的概率,是以文本的语法结构为基础并且依赖于文本的词汇表来计算得出。于是单词和语言学类别的概率被确定。除了上述应用范围的语言模型的重新构造以外本方法同样包含了一个可能性用于使已经存在的语言模型适应于新的应用范围。
申请公布号 CN1111841C 申请公布日期 2003.06.18
申请号 CN98809243.3 申请日期 1998.09.07
申请人 西门子公司 发明人 P·维特舍尔;H·赫格
分类号 G10L15/00 主分类号 G10L15/00
代理机构 中国专利代理(香港)有限公司 代理人 郑立柱;王忠忠
主权项 1.在语言识别中通过计算机来确定至少两个单词的序列出现的概率的方法,a) 其中一语言含有语言学类别:(C1,...Ck)=F((f1,v11,...v1 j)...(fm,vm1,...vmj)),这里表示为fm 语言学的标志m 语言学标志的数目Vm1...Vmj 语言学标志fm的语言学数值j 语言学数值的数目C1...Ck 语言学类别i=1...Kk 语言学类别的数目F 根据语言学类别由语言学标志和语言学数值构 成的映射准则b)其中一个单词至少被分配了一个语言学类别;c)其中至少两个单词的序列出现的概率通过如下公式被确定:<math> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>&ap;</mo> <munderover> <mi>&Pi;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munder> <mi>&Sigma;</mi> <msub> <mi>C</mi> <mi>i</mi> </msub> </munder> <munder> <mi>&Sigma;</mi> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </math> 这里P(w) 至少两个单词的序列出现的概率W 至少两个单词的序列wi 序列W的第i个单词(i=1...n)n 序列W的单词wi的数目Ci 语言类别,该类别属于单词wiCi-1 语言类别,该类别属于单词wi-1∑ci 所有语言类别的总和,该总和属于单词wip(wi|ci) 相应的单词概率p(ci|ci-1) 双语法的概率,也就是:类别-双语法,双语法-概率p(ci-1|wi-1) 相应的类别概率
地址 德国慕尼黑