发明名称 一种基于字幕检测与识别的视频字幕还原方法
摘要 本发明是一种基于字幕检测与识别的视频字幕还原方法,包括以下步骤:步骤1:将视频上传到分析设备;步骤2:检测每帧上的字幕区域;步骤3:通过滑动窗口检测字幕;步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。本发明通过字幕检测,检测出视频上的硬字幕,并通过光学字符识别技术,识别出硬字幕中的内容,还原得到软字幕(文本字幕)。
申请公布号 CN104244107A 申请公布日期 2014.12.24
申请号 CN201410423647.5 申请日期 2014.08.26
申请人 中译语通科技(北京)有限公司 发明人 程国艮;袁翔宇;王宇晨
分类号 H04N21/488(2011.01)I;H04N21/435(2011.01)I;H04N21/81(2011.01)I;G06K9/20(2006.01)I 主分类号 H04N21/488(2011.01)I
代理机构 北京知本村知识产权代理事务所 11039 代理人 周自清
主权项 一种基于字幕检测与识别的视频字幕还原方法,其特征在于, 包括以下步骤:步骤1:将视频上传到分析设备;步骤2: 检测每帧上的字幕区域;步骤3: 通过滑动窗口检测字幕,滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器;当滑动窗口为空时,直接将新帧放入;如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1;如果新帧与窗口内某一帧的重叠区域小于b%时;此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间;无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。
地址 100040 北京市石景山区八大处高科技园区西井路3号3号楼7473房间