发明名称 |
一种基于字幕检测与识别的视频字幕还原方法 |
摘要 |
本发明是一种基于字幕检测与识别的视频字幕还原方法,包括以下步骤:步骤1:将视频上传到分析设备;步骤2:检测每帧上的字幕区域;步骤3:通过滑动窗口检测字幕;步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。本发明通过字幕检测,检测出视频上的硬字幕,并通过光学字符识别技术,识别出硬字幕中的内容,还原得到软字幕(文本字幕)。 |
申请公布号 |
CN104244107A |
申请公布日期 |
2014.12.24 |
申请号 |
CN201410423647.5 |
申请日期 |
2014.08.26 |
申请人 |
中译语通科技(北京)有限公司 |
发明人 |
程国艮;袁翔宇;王宇晨 |
分类号 |
H04N21/488(2011.01)I;H04N21/435(2011.01)I;H04N21/81(2011.01)I;G06K9/20(2006.01)I |
主分类号 |
H04N21/488(2011.01)I |
代理机构 |
北京知本村知识产权代理事务所 11039 |
代理人 |
周自清 |
主权项 |
一种基于字幕检测与识别的视频字幕还原方法,其特征在于, 包括以下步骤:步骤1:将视频上传到分析设备;步骤2: 检测每帧上的字幕区域;步骤3: 通过滑动窗口检测字幕,滑动窗口里存储了最多连续的M帧图像的字幕候选区数据,并维护一个计数器;当滑动窗口为空时,直接将新帧放入;如果滑动窗口不为空且时,对于新帧,计算新帧与窗口内各帧的重叠区域,新帧与窗口内各帧的重叠区域均大于b%时,如果滑动窗口内帧数量小于M,则将新帧添加进滑动窗口中,若滑动窗口已满,则计数器加1;如果新帧与窗口内某一帧的重叠区域小于b%时;此时,如果计数器大于阈值N,则认为检测出一条字幕,该字幕的字幕起始时间为滑动窗口内第一帧所对应的时间,根据滑动窗口的大小和计数器值,可以计算该条字幕所跨越的帧的数量,得出字幕的截止时间;无论是否检测出字幕,都将新帧加入滑动窗口内,同时,计数器置为0,所述M、N、b为预先设置的固定值;步骤4:将检测出来的字幕,其中的某一帧,使用OCR技术,识别出文字,将文字与字幕的起始和截止时间,存储为文本字幕。 |
地址 |
100040 北京市石景山区八大处高科技园区西井路3号3号楼7473房间 |