发明名称 基于置信度的关键词检出系统裁剪方法
摘要 基于置信度的关键词检出系统裁剪方法,涉及关键词检出系统中的局部路径裁剪方法。解决现有基于似然分的路径裁剪不能最大程度地缩减搜索空间,从而导致系统效率低,关键词确认阶段计算量大的问题。将语音特征提取得特征矢量序列,根据Viterbi解码,计算局部路径上活动模型状态产生特征矢量的概率,并累加得局部路径概率得分,再计算特征矢量的后验概率,累加得局部路径置信度得分;然后依次进行基于似然分和置信度的状态层局部路径裁剪,然后判断是否到达语音末尾,是则据解码过程生成的网格回溯找关键词,得到识别结果,否则重新解码。本发明能最大程度地缩减搜索空间,能减少30%的关键词候选。本发明适用于确认阶段计算量大的任务中。
申请公布号 CN102402984A 申请公布日期 2012.04.04
申请号 CN201110280603.8 申请日期 2011.09.21
申请人 哈尔滨工业大学 发明人 韩纪庆;袁浩;李海洋
分类号 G10L15/08(2006.01)I;G10L15/00(2006.01)I;G06F17/30(2006.01)I 主分类号 G10L15/08(2006.01)I
代理机构 哈尔滨市松花江专利商标事务所 23109 代理人 韩末洙
主权项 基于置信度的关键词检出系统裁剪方法,其特征在于基于置信度的关键词检出系统裁剪方法是通过以下步骤实现的:步骤一、输入语音信号,对输入的语音信号进行预处理,特征提取得到特征矢量序列X={x1,x2,...xs},其中S代表自然数;步骤二、根据Viterbi解码算法,对每帧语音特征在预先定义的识别网络上进行解码,解码之前,为每条局部路径增加一个变量,用于记录该条局部路径上的累积置信度得分,并将累积置信度得分初始化为0;步骤三、在t时刻,所有局部路径向前扩展一次,得相应局部路径的活动模块,然后计算每个活动模型的状态q产生特征矢量xt的概率,并累加到该条局部路径的似然分中,同时计算每个活动模型中状态q相对于xt的后验概率,再将后验概率累加到对应的局部路径的置信度得分中,获得每条局部路径的置信度得分,其中,xt∈X,1≤t≤S,t取自然数;步骤四、进行基于似然分的状态层局部路径裁剪;步骤五、进行基于置信度的状态层局部路径裁剪;步骤六、判断是否到达语音末尾,是则转步骤七,否则转步骤二;步骤七、根据解码过程中生成的网格回溯查找关键词,并基于后验概率确认关键词候选从而得到最终的识别结果,完成基于置信度的关键词检出系统裁剪方法。
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号