发明名称 面向新闻视频的人物对话字幕提取方法
摘要 本发明公开了一种面向新闻视频的人物对话字幕提取方法,包括步骤:S1、将新闻节目经数字化采集设备转化为数字新闻视频;S2、对所述新闻视频进行镜头边界检测和语音预处理;S3、基于步骤S2得到的语音镜头集合进行主持人检测和聚类,使一个类的镜头都对应同一个主持人;S4、基于步骤S3得到的聚类结果收集的不同主持人的语音,构造相应的主持人声学模型,并依此将视频内所有语音镜头分类为主持人说话镜头和人物对话镜头;S5、对人物对话镜头进行字幕检测和跟踪,得到每条字幕的出现和消失时间,以及它的空间位置;S6、基于字幕位置分析,过滤误判为字幕的背景区域和噪声字幕,将剩余字幕作为人物对话字幕输出。
申请公布号 CN103856689A 申请公布日期 2014.06.11
申请号 CN201310534003.9 申请日期 2013.10.31
申请人 北京中科模识科技有限公司 发明人 姜洪臣
分类号 H04N5/222(2006.01)I;G06K9/32(2006.01)I 主分类号 H04N5/222(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 李相雨
主权项 一种面向新闻视频的人物对话字幕提取方法,其特征在于,包括步骤:S1、将新闻节目经数字化采集设备转化为数字新闻视频;S2、对所述新闻视频进行镜头边界检测和语音预处理;S3、基于步骤S2得到的语音镜头集合进行主持人检测和聚类,使一个类的镜头都对应同一个主持人;S4、基于步骤S3得到的聚类结果收集的不同主持人的语音,构造相应的主持人声学模型,并依此将视频内所有语音镜头分类为主持人说话镜头和人物对话镜头;S5、对人物对话镜头进行字幕检测和跟踪,得到每条字幕的出现和消失时间,以及它的空间位置;S6、基于字幕位置分析,过滤误判为字幕的背景区域和噪声字幕,将剩余字幕作为人物对话字幕输出。
地址 100190 北京市海淀区中关村东路95号自动化大厦5层