发明名称 一种在线语音文本对齐系统及方法
摘要 本发明涉及一种在线语音文本对齐系统及方法,该系统包括:文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。其中,强制对齐模块包括:特征提取模块、搜索空间构建模块和对齐解码模块。其中,错误恢复模块包括:语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块。该系统及方法检测句子末尾的方法是传统的基于维特比对齐的方法的改进,通过利用束搜索的搜索空间的信息,估计句尾搜索空间的活跃程度A(t,s<sub>we</sub>),估计在局部意义下的句子末尾时间<img file="dda0000150505930000011.GIF" wi="61" he="35" />本系统及方法具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能;可以实时的产生在线输入语音流和对应的文本的对齐结果,并能够处理带错误的长文本。
申请公布号 CN101651788B 申请公布日期 2012.11.21
申请号 CN200810224791.0 申请日期 2008.12.26
申请人 中国科学院声学研究所;北京中科信利技术有限公司 发明人 颜永红;高杰;赵庆卫;潘接林
分类号 H04N5/278(2006.01)I 主分类号 H04N5/278(2006.01)I
代理机构 北京法思腾知识产权代理有限公司 11318 代理人 杨小蓉
主权项 1.一种在线语音文本对齐系统,其特征在于,所述系统包括:一文本处理模块,用于将原始的文本流作预处理和句子分割,并将分割后的文本句子送入强制对齐模块和错误恢复模块;一错误检测模块,用于检测并判断是否是错误对齐和文本与语音不匹配的情况,如果发生错误,则通知错误恢复模块进行错误恢复;一错误恢复模块,用于根据在线输入语音信号和文本句子信息,进行错误纠正,即对在线输入语音信号进行识别,在文本中寻取识别结果的最优文本匹配位置,并将此最优文本匹配位置反馈给强制对齐模块;及一强制对齐模块,用于根据在线输入语音信号和文本句子信息,实时地输出当前句子的语音与文本的对齐结果;如果收到错误恢复模块的反馈信息,则跳过出现错误的文本段,并从错误恢复模块反馈的最优文本匹配位置处的句子开始,继续输出句子的语音与文本的对齐结果,所述强制对齐模块包括:特征提取模块、搜索空间构建模块和对齐解码模块;所述特征提取模块,用于将在线输入的语音信号进行特征提取,并按从前往后逐帧地、顺序地将语音特征送入对齐解码模块;所述搜索空间构建模块,用于将文本流进行字到音的转换,根据声学模型,将文本扩展成由隐含马尔可夫模型状态序列所组成的搜索空间;所述对齐解码模块,用于将语音特征与对应的隐含马尔可夫模型状态序列所组成的搜索空间对齐;根据近似最优句子结束时间<img file="FDA00001859074000011.GIF" wi="59" he="51" />输出句子的语音与文本的对齐结果。
地址 100190 北京市海淀区北四环西路21号中国科学院声学研究所