发明名称 一种语音识别的方法
摘要 本发明公开了一种语音识别的方法,采集音频数据;获取音频数据的Lattice结果,包括时间点信息、多候选信息和匹配似然值打分信息;根据多候选信息和匹配似然值打分信息,获得置信度打分信息;采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果;定位音频数据的对应的发音位置,同时显示其他候选词;选择或者输入正确的文本,完成修改,并且冻结修改后的文本;根据修改后的文本为关键词,利用搜索引擎检索相关的文本训练语言模型,并插值获得自适应的语言模型,返回利用自适应的语音模型对剩余部分的音频数据重新进行识别。采用了本发明的技术方案,能够提高语音识别率,降低人工校对的工作量。
申请公布号 CN102122506B 申请公布日期 2013.07.31
申请号 CN201110054465.1 申请日期 2011.03.08
申请人 天脉聚源(北京)传媒科技有限公司 发明人 吴鹏;刘赵杰
分类号 G10L15/00(2013.01)I;G10L15/065(2013.01)I 主分类号 G10L15/00(2013.01)I
代理机构 代理人
主权项 一种语音识别的方法,其特征在于,包括以下步骤:A、采集音频数据;B、获取音频数据的Lattice结果,包括时间点信息、多候选信息和匹配似然值打分信息,将所述Lattice结果转换成混淆网络;C、根据多候选信息和匹配似然值打分信息,获得置信度打分信息;D、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果;E、定位音频数据的对应的发音位置,所述发音位置分散筛选并突出显示,展现包含最优识别结果和打分的界面,所述打分是根据语言模型的PP值由高到低排列,同时显示其他候选词;F、选择或者输入正确的文本,完成修改,并且冻结修改后的文本;G、以出错的词组为关键词,利用搜索引擎检索相关的文本训练语言模型,并和插值获得自适应的语言模型,返回步骤B,利用自适应的语音模型对剩余部分的音频数据重新进行识别。
地址 100007 北京市东城区安定门东大街28号2号楼816室