发明名称 基于语音识别的字幕同步装置和方法
摘要 提供了一种基于语音识别的字幕同步装置和方法,所述字幕同步装置包括:语音识别模块,从音频流提取前景声音中的语音,并对提取的语音进行采样和识别,从而生成与对应的文字信息;动态采样调整模块,对生成的文字信息进行语义识别度的评价,并根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息;字幕语义对比模块,将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配;字幕同步模块,如果字幕语义对比模块在字幕文件中找到与识别的语音的文字信息对应的句子,则根据语音的时间信息来调整字幕文件的时间信息;字幕显示模块,根据调整后的字幕文件的时间信息来显示字幕。
申请公布号 CN104038804A 申请公布日期 2014.09.10
申请号 CN201310069142.9 申请日期 2013.03.05
申请人 三星电子(中国)研发中心;三星电子株式会社 发明人 徐明;范炜;谭皓
分类号 H04N21/431(2011.01)I;H04N21/435(2011.01)I;H04N21/472(2011.01)I;G10L15/01(2013.01)I 主分类号 H04N21/431(2011.01)I
代理机构 北京铭硕知识产权代理有限公司 11286 代理人 韩明星;罗延红
主权项 一种基于语音识别的字幕同步装置,包括:语音识别模块,从与播放视频对应的音频流提取前景声音中的语音,并对提取的语音进行采样和识别,从而生成与识别的语音对应的文字信息;动态采样调整模块,对语音识别模块生成的文字信息进行语义识别度的评价,并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息;字幕语义对比模块,将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配;字幕同步模块,如果字幕语义对比模块在字幕文件中找到与识别的语音的文字信息对应的句子,则根据语音的时间信息来调整字幕文件的时间信息;字幕显示模块,根据字幕同步模块调整后的字幕文件的时间信息来显示字幕。
地址 210061 江苏省南京市高新区高新研发大厦9~12层