发明名称 一种领域自适应的公开课字幕自动生成系统及方法
摘要 一种领域自适应的公开课字幕自动生成系统及方法,包括:预处理模块、模型修改模块、音频识别模块、识别结果反馈模块和字幕生成模块;预处理模块包括对视频的预处理,文本的预处理以及关键词的预处理;模型修改模块包含的内容为利用预处理过程中得到的文本资料对识别过程中的语言模型进行修改;音频识别模块对上传视频的识别;识别结果反馈模块对识别的结果进行关键词提取,提取到的关键词又可以调用预处理过程中对于用户输入的关键词的处理办法进行处理;字幕生成模块:字幕生成过程中对最终的识别结果进行规范化,加上时间轴等信息,得到真正的字幕。本发明解决了公开课字幕生产的难题,通过自动化的处理,减轻了人工生产字幕的人力负担,为大家学英文公开课提供了极大的便利。
申请公布号 CN103885924A 申请公布日期 2014.06.25
申请号 CN201310596791.4 申请日期 2013.11.21
申请人 北京航空航天大学 发明人 巢文涵;马国庆;苏一鸣;李水华;孙承根
分类号 G06F17/20(2006.01)I;G10L15/18(2013.01)I 主分类号 G06F17/20(2006.01)I
代理机构 北京科迪生专利代理有限责任公司 11251 代理人 成金玉;孟卜娟
主权项 一种领域自适应的公开课字幕自动生成系统,其特征在于包括:预处理模块、模型修改模块、音频识别模块、识别结果反馈模块和字幕生成模块;其中:预处理模块,包括对视频预处理、文本预处理及关键词预处理;对视频预处理是对于用户添加的视频进行音频提取和格式转换,从而得到统一格式的音频文件;文本预处理是对于用户添加的文本进行检索和过滤,将所有不同格式的文本进行统一的格式转换,即统一到一个文本中,以供后续的使用,并对统一后的文本进行信息检索和过滤,获取到有用的纯文本资料,即完全的英文文本且不含图表及其他符号;文本预处理模块中还包括关键词预处理,即利用用户输入的关键词进行网络搜索和信息提取,获取到相应的纯文本资料,并和由用户提供的文本文件提取到的有用纯文本资料一起用于修改识别模型;模型修改模块,利用预处理模块得到的纯文本资料对识别过程中的语言模型进行修改,得到修改后的语言模型;音频识别模块,利用修改后的语言模型对预处理中提出到的音频文件进行识别,得到识别结果;识别结果反馈模块,对识别得到结果进行关键词提取,提取到的关键词又调用预处理模块中对于用户输入关键词的处理办法进行处理,此过程构成迭代,得到最终的识别结果;字幕生成模块,字幕生成过程完成对最终的识别结果进行规范化,加上时间轴等附加信息,得到真正的字幕文件。
地址 100191 北京市海淀区学院路37号