发明名称 | 一种多模态融合的采访镜头检测方法 | ||
摘要 | 本发明公开了一种多模态融合的采访镜头检测方法,包括:输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;根据视频预处理操作所得到的音频流建立人声模型,并依赖所建立的人声模型判断镜头是否为包含人声的镜头;根据视频预处理操作所得到的视频流建立人脸模型,并依赖人脸模型判断镜头是否为包含人脸的镜头;融合人声检测结果和人脸检测结果,如果一个镜头中同时包含人声和人脸信息,则镜头为采访镜头。本发明的优点是通过融合视频和音频信息,建立通用的基于镜头的采访检测模型,并实现了对未经编辑的原始视频的概念检测和标注。 | ||
申请公布号 | CN101316327A | 申请公布日期 | 2008.12.03 |
申请号 | CN200710099725.0 | 申请日期 | 2007.05.29 |
申请人 | 中国科学院计算技术研究所 | 发明人 | 刘安安;李锦涛;张勇东;唐胜;宋砚 |
分类号 | H04N5/262(2006.01) | 主分类号 | H04N5/262(2006.01) |
代理机构 | 北京泛华伟业知识产权代理有限公司 | 代理人 | 高存秀 |
主权项 | 1、一种多模态融合的采访镜头检测方法,按照以下步骤顺序执行:步骤10)、输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;步骤20)、根据所述的音频流建立人声模型,并依赖所述的人声模型判断镜头是否为包含人声的镜头;步骤30)、根据所述的视频流建立人脸模型,并依赖所述的人脸模型判断镜头是否为包含人脸的镜头;步骤40)、根据步骤20)的人声检测结果和步骤30)的人脸检测结果建立采访模型,并在所述的采访模型中融合人声检测结果和人脸检测结果,根据融合的结果判断镜头是否为采访镜头,如果一个镜头中同时包含人声和人脸信息,则所述镜头为采访镜头。 | ||
地址 | 100080北京市海淀区中关村科学院南路6号 |