基于多模态的暴力视频分层筛选方法,申请号CN201010186104.8-传众专利搜索

发明名称	基于多模态的暴力视频分层筛选方法
摘要	一种多媒体处理技术领域的基于多模态的暴力视频分层筛选方法，本发明首先通过音频特征的快速筛选，能比较有效的排除一些健康视频，选出可能是暴力视频的候选镜头和视频。针对这些候选镜头，再利用视频运动检测和人脸检测进行二次筛选，对剩下的镜头提取关键帧，然后再进行图像特征的提取，并利用支持向量机进行匹配，能十分准确的分出暴力视频。本发明通过音频的快速处理特点，能有效的解决网络监管的实时性要求，判断时间小于视频长度的1％；对于候选镜头进行后续的视频精确分类方法，同时保证了视频分类的准确性要求，分类准确率不小于95％。
申请公布号	CN101834982A	申请公布日期	2010.09.15
申请号	CN201010186104.8	申请日期	2010.05.28
申请人	上海交通大学	发明人	孙锬锋;蒋兴浩;李荣杰;冯冰;傅光磊
分类号	H04N5/14(2006.01)I;G06K9/66(2006.01)I	主分类号	H04N5/14(2006.01)I
代理机构	上海交达专利事务所 31201	代理人	王锡麟;王桂忠
主权项	一种基于多模态的暴力视频分层筛选方法，其特征在于，包括以下步骤：第一步，提取待筛选视频的音频流，并进行分割去除处理，得到若干处理后的视频片段；第二步，提取处理后的视频片段的音频特征和常见暴力场景的音频特征，并进行判断处理，得到候选的视频片段；第三步，对候选的视频片段进行运动检测，得到候选的视频片段中每个镜头的运动强度特征，去除其中运动强度特征小于阈值T2的镜头，并对剩余的每个镜头进行人脸检测，去除其中小于20％帧包括人脸的镜头，此时剩余的镜头就是包含人脸的候选镜头；第四步，对包含人脸的候选镜头的关键帧以及常见暴力场景镜头的关键帧进行图像特征提取和图像特征融合，利用支持向量机对两者特征向量进行匹配，得到包含暴力镜头的视频。
地址	200240 上海市闵行区东川路800号