发明名称 |
一种语音识别的方法 |
摘要 |
本发明公开了一种语音识别的方法,采集音频数据;获取音频数据的Lattice结果,包括时间点信息、多候选信息和匹配似然值打分信息;根据多候选信息和匹配似然值打分信息,获得置信度打分信息;采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果;定位音频数据的对应的发音位置,同时显示其他候选词;选择或者输入正确的文本,完成修改,并且冻结修改后的文本;根据修改后的文本为关键词,利用搜索引擎检索相关的文本训练语言模型,并插值获得自适应的语言模型,返回利用自适应的语音模型对剩余部分的音频数据重新进行识别。采用了本发明的技术方案,能够提高语音识别率,降低人工校对的工作量。 |
申请公布号 |
CN102122506B |
申请公布日期 |
2013.07.31 |
申请号 |
CN201110054465.1 |
申请日期 |
2011.03.08 |
申请人 |
天脉聚源(北京)传媒科技有限公司 |
发明人 |
吴鹏;刘赵杰 |
分类号 |
G10L15/00(2013.01)I;G10L15/065(2013.01)I |
主分类号 |
G10L15/00(2013.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种语音识别的方法,其特征在于,包括以下步骤:A、采集音频数据;B、获取音频数据的Lattice结果,包括时间点信息、多候选信息和匹配似然值打分信息,将所述Lattice结果转换成混淆网络;C、根据多候选信息和匹配似然值打分信息,获得置信度打分信息;D、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果;E、定位音频数据的对应的发音位置,所述发音位置分散筛选并突出显示,展现包含最优识别结果和打分的界面,所述打分是根据语言模型的PP值由高到低排列,同时显示其他候选词;F、选择或者输入正确的文本,完成修改,并且冻结修改后的文本;G、以出错的词组为关键词,利用搜索引擎检索相关的文本训练语言模型,并和插值获得自适应的语言模型,返回步骤B,利用自适应的语音模型对剩余部分的音频数据重新进行识别。 |
地址 |
100007 北京市东城区安定门东大街28号2号楼816室 |