发明名称 一种基于三维卷积神经网络的视频分类方法
摘要 本发明公开了一种基于三维卷积神经网络的视频分类的方法,属于视频处理技术领域。此方法将视频等间隔采样为多个视频段,扩增了视频数据库,将三维视频段直接输入到3D CNN中,同时提取视频的时域和空域特征,改善了传统视频分类方法因人工选取视频特征及视频建模方式的局限性。并行分布式3D CNN多分类模型降低了3D CNN学的复杂度,同时使得分类系统更方便的实现分布式并行计算。基于3D CNN多分类系统能够仅用较少的视频段就达到较高的识别率,并能够将不属于任意类别的视频分类为新增类别,避免了对新增类别的分类错误。
申请公布号 CN104966104A 申请公布日期 2015.10.07
申请号 CN201510380973.7 申请日期 2015.06.30
申请人 孙建德 发明人 孙建德;赵冬;李静
分类号 G06K9/62(2006.01)I;G06N3/04(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 代理人
主权项 一种基于三维卷积神经网络3D CNN的视频分类方法,其特征在于,该方法构建了并行分布式的三维卷积神经网络多分类模型,并对视频库进行扩增处理,该方法包括以下步骤:(1)读取视频库中的视频,对视频帧进行灰度化处理;(2)通过等间隔采样,对已有视频库进行扩增处理,使原有视频库的每个视频扩增为多个固定帧数为k的视频段,且任意视频段均无重复的帧;(3)对经过扩增处理的视频库,按照原有标签信息,对每一类视频,将由该类视频经等间隔采样得到的视频段作为该类正样本,其他类视频的视频段作为负样本,制作其训练测试数据集;(4)构建C个3D CNN网络,C是数据集中的类别数,每个3D CNN以视频段作为输入,用于实现对某一类视频的二分类识别,只有两个输出节点。利用每一类视频的训练数据集训练属于该类的3D CNN,使C个3D CNN网络分别能够对C类视频进行是否属于该类的二分类识别;(5)构建并行分布式3D CNN多分类模型,将C个训练好的3D CNN进行并联,在并联末端设置分类机制,通过比较C个3D CNN对输入视频的视频段的分类效果将该输入视频分类;(6)待分类视频只需随机输入其部分视频段到此多分类网络模型中,即可判断其类别。
地址 250100 山东省济南市历城区山大南路27号山东大学信息科学与工程学院