发明名称 通过使用平方根折扣的统计语言的语音识别
摘要 本发明涉及统计语言建模和语音识别的方法,该方法提供预定顺序的预定数目的词,并提供包括预定数目的词序列的训练语料,其中每个序列由所提供的预定顺序的预定数目的跟随有至少一个附加词的词组成,提供候选词,并基于训练语料为每个候选词计算该候选词跟随所提供的预定数目的词的概率,确定至少一个候选词,对该候选词计算的概率超过预定的阈值,其中候选词的概率是基于平滑的最大似然概率计算的,该最大似然概率是为训练语料的词序列计算的,对于训练语料的所有词序列,最大似然概率大于或等于预定的正实数,该正实数小于或等于训练语料的词序列的预定数目的倒数值。
申请公布号 CN101123090B 申请公布日期 2011.12.07
申请号 CN200710141821.7 申请日期 2007.08.13
申请人 纽昂斯通讯公司 发明人 G·维尔申
分类号 G10L15/06(2006.01)I;G10L15/18(2006.01)I 主分类号 G10L15/06(2006.01)I
代理机构 北京市柳沈律师事务所 11105 代理人 沙捷;丁艺
主权项 1.一种用于统计语言建模的方法,其包括以下步骤:以预定的顺序提供预定数目的词;提供包括预定数目词序列的训练语料,其中每个词序列由所提供的预定顺序的预定数目的词组成,所述预定数目的词跟随有至少一个额外词;提供候选词,并基于训练语料为每个候选词计算该候选词跟随所提供的预定数目的词的概率得到所述候选词的概率;和确定对其计算的概率超过预定阈值的至少一个候选词;其中所述候选词的概率是基于平滑的最大似然概率计算的,该最大似然概率是为训练语料的词序列计算的,对于训练语料的所有词序列,该最大似然概率大于或等于预定的正实数,该正实数小于或等于训练语料的词序列的预定数目的倒数值,其特征在于,如果观察到的训练语料的词序列的频率c<sub>j</sub>都没有落在所述预定的正实数乘以训练语料的所有预定数目的词序列的整体频率<img file="FSB00000545664200011.GIF" wi="95" he="129" />以下,这里c<sub>j</sub>表示训练语料的N个词序列中观察到的第j个词序列的频率,其中该正实数小于或等于词序列的预定数目的倒数值,则对于包括所提供的跟随有所述候选词的预定顺序的预定数目的词或由其组成的每个词序列,基于最大似然概率计算每个候选词的概率。
地址 美国马萨诸塞州