发明名称 一种视听字幕制作系统及方法
摘要 本发明提供了一种视听字幕制作系统及方法,所述系统包括原始文本处理模块、注音模块、原始声音处理模块、强制切分模块、切分可信度评估模块、错误处理模块、字幕生成模块。本发明能自动处理原始文本,分割为限定长度的句子或短语;采用形近词替代等方法自动处理非登录词,建立多发音注音网络;将注音网络展开为隐含马尔科夫识别语音对齐网络,使用强容错隐含马尔科夫声学模型对文本自动对齐强制切分;通过语音识别技术对每个切分段的切分结果进行可信度评估,可很容易发现切分错误以便进一步处理;直接根据切分结果生成各种格式适用于各种设备的视听字幕文件。借此,本发明可在无人工干预或很少人工干预的情况下直接得到高质量的视听字幕文件。
申请公布号 CN102937972A 申请公布日期 2013.02.20
申请号 CN201210389708.1 申请日期 2012.10.15
申请人 上海外教社信息技术有限公司 发明人 张云梯;庄智象;黄卫;黄河;张中良
分类号 G06F17/30(2006.01)I;G10L15/26(2006.01)I;G10L15/14(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海百一领御专利代理事务所(普通合伙) 31243 代理人 马育麟
主权项 一种视听字幕制作系统,其特征在于,所述系统包括:原始文本处理模块,用于将输入的原始文本分词后按指定规则分割为合适长度的句子或短语,并将所述句子或短语发送到注音模块;注音模块,用于处理所述句子或短语中的非登录词,然后通过查注音词典生成注音网络,并将所述注音网络发送到强制切分模块; 原始声音处理模块,用于将输入的原始声音处理成预定要求的声音流,并将所述声音流发送到强制切分模块;强制切分模块,用于将所述注音网络切分为隐含马尔科夫识别语音的对齐网络,然后将所述声音流提取为特征流并在所述对齐网络对齐,并将切分结果输入到切分可信度评估模块; 切分可信度评估模块,用于通过语音识别对所述切分结果中每个切分段进行可信度评估得到切分可信度评估结果,若所述切分可信度评估结果达到预定值,则将所述切分结果直接发送到字幕生成模块,否则将所述切分可信度评估结果发送到错误处理模块;错误处理模块,用于显示所述切分可信度评估结果,判断是所述原始文本有误还是所述切分结果需要人工微调,若所述切分结果需要人工微调则人工微调所述切分结果并发送到字幕生成模块,若是所述原始文本有误则人工修改原始文本后重新交由所述原始文本处理模块切分;字幕生成模块,用于结合预定的字幕文件格式,将所述切分结果输出字幕文件。
地址 200083 上海市虹口区大连西路557号3楼8354室
您可能感兴趣的专利