发明名称 机率导向之容错式自然语言理解方法
摘要 一种机率导向之容错式自然语言理解方法,此方法是将语言理解的过程分为概念剖析及概念序列典范比对之两步骤。概念剖析利用以概念文法驱动之剖析器,将语音辨识的结果剖析构建成为概念剖析树群集合;概念序列典范比对是以容错之解译器将概念剖析树群集合所含之概念序列与系统的概念序列典范做比对,找出最有可能的概念序列并转换成代表语者意图的语意框架。整个过程以机率导向的评分函数导引。当语音辨识错误致使无法泄生正确的概念序列时,藉此评分函数判断错误所在并尝试修复之,以减少语音辨识错误所造成的负面影响。
申请公布号 TW472232 申请公布日期 2002.01.11
申请号 TW089116182 申请日期 2000.08.11
申请人 财团法人工业技术研究院 发明人 林一中
分类号 G10L15/00 主分类号 G10L15/00
代理机构 代理人
主权项 1.一种机率导向之容错式自然语言理解方法,其方法包括:利用一语音辨识模组将使用者所说的话语转换成可能的一语句集合;利用一概念文法将该语句集合剖析成为一概念剖析树群集合,该概念剖析树群集合包括一概念序列;加入一概念序列典范,其代表该概念文法所认知之合法之该概念序列;以及将该概念剖析树群集合所包括之该概念序列与该概念序列典范做比对,找出最有可能之该概念序列,并将该概念序列转换成为代表语者意图之一语意框架;其中在剖析该概念文法与比对该概念序列的过程是以一机率公式表示。2.如申请专利范围第1项所述之机率导向之容错式自然语言理解方法,其中将该概念文法分为一静态文法与一动态文法,其中该静态文法是预先设定之且不随输入之该语句集合而改变之文法规则,该动态文法是以输入之该语句集合与该静态文法比较所产生之。3.如申请专利范围第1项所述之机率导向之容错式自然语言理解方法,其中使用一语句表列与一语词图网中二者择其一之形式以表示该语句集合。4.如申请专利范围第1项所述之机率导向之容错式自然语言理解方法,其中利用该概念序列典范所构建之一概念序列典范知识库可以人力确认剖析结果之正确性,亦可加入人为定义之合法之该概念序列,以补充一文字语料库之不足。5.如申请专利范围第1项所述之机率导向之容错式自然语言理解方法,其中该机率公式为,其中U表示使用者话语之一语音特征,W表示该语音辨识模组输出之该语句集合中可能之一语词序列,F表示该系统文法定义中该语词序列之可能之一概念剖析树群,C表示对应于该概念剖析树群之该概念序列,K表示该概念序列典范,E表示将该概念序列典范修改为该概念序列之修改动作序列, 则为代表使用者话语最有可能之该语词序列、该概念剖析树群、该概念序列、该概念序列典范与该修改动作序列之组合。6.如申请专利范围第5项所述之机率导向之容错式自然语言理解方法,其中该机率公式中之一第一机率项P(W,F,C,K,E│U)进一步推导为:其中假设P(F,C,K,E│W,U) P(F,C,K,E│W),即给定该语词序列的状况下,该概念剖析树群、该概念序列、该概念序列典范及该修改动作序列与该语音特征的关联性可以忽略。7.如申请专利范围第6项所述之机率导向之容错式自然语言理解方法,其中藉由该语音辨识模组利用一隐藏式马可夫模型估算该第一机率项P(W,F,C,K,E│U)中之一第二机率项P(U│W)。8.如申请专利范围第6项所述之机率导向之容错式自然语言理解方法,其中该第一机率项P(W,F,C,K,E│U)中之一第三机率项P(W,F,C,K,E)之参数量过于庞大而无法直接估算,因此做以下之化简:P(W,F,C,K,E)=P(W,F│C,K,F)P(C,E│K)P(K)P(W,F│C)P(C,E│K)P(K)=P(F│C)P(E│K)P(K)其中一第四机率项P(W,F│C,K,E)与一第五机率项P(W,F│C)假设为P(W,F│C,K,E) P(W,F│C),即给定该概念序列时,生成该概念序列之该概念剖析树群及该语句序列与该概念序列与范的关联性可以忽略。9.如申请专利范围第8项所述之机率导向之容错式自然语言理解方法,其中在该第五机率项P(W,F│C)与一第六机率项P(F│C)由于该概念剖析树群之一终端节点为该语句序列,因此P(W,F│C)=P(F│C)。10.如申请专利范围第9项所述之机率导向之容错式自然语言理解方法,其中利用一SCFG机率模型在剖析该语音辨识模组所产生之该语句集合时,该第六机率项P(F│C)以下式估算:其中T表示该概念剖析树群中之一概念剖析树,A→为组成该概念剖析树之一文法规则,A表示一左端符号,表示一右端符号群。11.如申请专利范围第8项所述之机率导向之容错式自然语言理解方法,其中在该第三机率项P(W,F,C,K,E)中之一第七机率项P(C,E│K)与一第八机率项P(E│K),因该修改动作序列中包含该概念序列的讯息,所以P(C,E│K)=P(E│K)。12.如申请专利范围第11项所述之机率导向之容错式自然语言理解方法,其中利用一N-gram机率模型化简该第八机率项P(E│K)如下:其中n表示该修改动作序列之一修改动作个数,ei表示第i个修改动作,L(ei)表示在该概念序列典范中紧邻ei左边之一概念的位置,kL(ei)表示紧邻ei左边之该概念,相同地,R(ei)表示在该概念序列典范中紧邻ei右边之该概念的位置, 表示在该概念序列典范中位于ei左边之X个概念,与表示在该概念序列典范中位于ei右边之Y个概念。13.如申请专利范围第8项所述之机率导向之容错式自然语言理解方法,其中利用该N-gram机率模型估算该第一机率项P(W,F,C,K,E│U)中之一第九机率项P(K)如下:其中m表示该概念序列典范之一概念个数,ki表示第i个该概念,k1m表示k1,...,km。14.如申请专利范围第5项所述之机率导向之容错式自然语言理解方法,其中该机率导向之容错式自然语言理解方法在理解使用者话语的过程可以机率导向之一评分函数来替代该机率公式,该评分函数为,其中SW表示一语音分数,SF表示一文法分数,SK表示一概念序列典范分数,SE表示一修改动作分数,因为各种假设所产生之一模型误差与在实际应用时的一估算误差会造成不同种类之一机率参数,而有不同之一监别力与一可靠度,为弥补这个问题,对不同种类之该机率参数之该分数给予适当之一权重,该权重之値是大于零,因此以该评分函数做为理解使用者话语的过程中,寻找最有可能之该语词序列、该概念剖析树群、该概念序列、该概念序列典范与该修改动作序列之依据为S(W,F,C,K,E)=w1SW+w2SF+w3SK+w4SE,其中w1表示一语音分数权重,w2表示一文法分数权重,w3表示一概念序列典范分数权重,w4表示一修改动作分数权重。15.如申请专利范围第14项所述之机率导向之容错式自然语言理解方法,其中估算该评分函数中各分数为该语音分数SW=logP(U│W),该文法分数,该概念序列典范分数 ,该修改动作分数 。16.如申请专利范围第15项所述之机率导向之容错式自然语言理解方法,其中当该修改动作序列的训练资料不足时,将该概念序列典范分数定义为,与该修改动作分数定义为 ,其中f(.)表示一动作类别函数。图式简单说明:第一图绘示理解使用者话语之流程图;第二图绘示概念剖析树群及对应的概念序列;第三图绘示将概念序列典范「Query Location Date Topic」修改为「Topic Location Date Topic」的两种可能之修改动作序列;第四图绘示机率导向之容错式语言理解方法的方块图;第五图绘示各语词之语音分数;第六图绘示静态文法与动态文法;第七图绘示概念剖析树群之图例;第八图绘示概念序列典范之非环式有向图形;第九图绘示根据概念剖析树群集合构建之概念图网;第十图绘示解译器藉由比对概念序列典范及概念序列而构建的语意框架。
地址 新竹县竹东镇中兴路四段一九五号