发明名称 一种多模态融合的采访镜头检测方法
摘要 本发明公开了一种多模态融合的采访镜头检测方法,包括:输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;根据视频预处理操作所得到的音频流建立人声模型,并依赖所建立的人声模型判断镜头是否为包含人声的镜头;根据视频预处理操作所得到的视频流建立人脸模型,并依赖人脸模型判断镜头是否为包含人脸的镜头;融合人声检测结果和人脸检测结果,如果一个镜头中同时包含人声和人脸信息,则镜头为采访镜头。本发明的优点是通过融合视频和音频信息,建立通用的基于镜头的采访检测模型,并实现了对未经编辑的原始视频的概念检测和标注。
申请公布号 CN101316327A 申请公布日期 2008.12.03
申请号 CN200710099725.0 申请日期 2007.05.29
申请人 中国科学院计算技术研究所 发明人 刘安安;李锦涛;张勇东;唐胜;宋砚
分类号 H04N5/262(2006.01) 主分类号 H04N5/262(2006.01)
代理机构 北京泛华伟业知识产权代理有限公司 代理人 高存秀
主权项 1、一种多模态融合的采访镜头检测方法,按照以下步骤顺序执行:步骤10)、输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;步骤20)、根据所述的音频流建立人声模型,并依赖所述的人声模型判断镜头是否为包含人声的镜头;步骤30)、根据所述的视频流建立人脸模型,并依赖所述的人脸模型判断镜头是否为包含人脸的镜头;步骤40)、根据步骤20)的人声检测结果和步骤30)的人脸检测结果建立采访模型,并在所述的采访模型中融合人声检测结果和人脸检测结果,根据融合的结果判断镜头是否为采访镜头,如果一个镜头中同时包含人声和人脸信息,则所述镜头为采访镜头。
地址 100080北京市海淀区中关村科学院南路6号