发明名称 一种基于广告视频图像数据的吸引力判定方法
摘要 本发明提出一种基于广告视频图像数据的吸引力判定方法,首先对得到的训练样本集中的每个广告视频数据进行特征提取,从视觉和听觉方面共提取出58个特征,形成特征向量;然后根据训练样本视听觉特征向量以及其吸引力的类别标签来训练分类模型。最后根据已经训练出的分类模型,对输入的每个吸引力类别未知的广告视频数据,首先计算其视听觉特征向量,作为分类模型的输入,接着用分类模型输出该广告视频数据的吸引力类别。本发明可以根据输入广告视频数据的视觉特征和听觉特征来对其吸引力大小进行判定,判定为吸引力大或吸引力小。该方法的判定结果具有较高的准确度,并且具有较低的运算复杂度。
申请公布号 CN103458279A 申请公布日期 2013.12.18
申请号 CN201310380246.1 申请日期 2013.08.27
申请人 西北工业大学 发明人 韩军伟;权荣;郭雷
分类号 H04N21/2668(2011.01)I 主分类号 H04N21/2668(2011.01)I
代理机构 西北工业大学专利中心 61204 代理人 王鲜凯
主权项 1.一种基于广告视频图像数据的吸引力判定方法,其特征在于:步骤1、提取每一个输入的广告视频图像数据的视觉特征和提取每一个输入的广告视频图像数据的听觉特征:提取每一个输入的广告视频图像数据的视觉特征,具体的步骤如下:步骤a:对广告视频图像数据进行镜头分割并提取视频镜头关键帧:将整段视频Video1分成n个单独的视频镜头,对于每个视频镜头i,提取出其中间帧作为该视频镜头的关键帧P<sub>i</sub>;步骤b:计算广告视频图像数据的动态视觉特征——视频总体运动强度特征,具体实施如下:●计算广告视频图像数据的平均视频镜头运动矢量<img file="FDA0000372773390000011.GIF" wi="62" he="68" />:对步骤a中镜头分割得到的每个视频镜头i用全搜索块匹配算法计算其运动矢量M<sub>i</sub>,再根据加权平均法计算视频内部的平均视频镜头运动矢量<img file="FDA0000372773390000012.GIF" wi="64" he="69" />,计算公式为<img file="FDA0000372773390000013.GIF" wi="368" he="135" />其中t<sub>i</sub>为第i个视频镜头的持续时间,T为整个广告视频图像数据的持续时间;●计算广告视频图像数据的连续视频镜头之差的和D;计算公式为:<img file="FDA0000372773390000014.GIF" wi="240" he="134" />其中,D<sub>i</sub>表示第i+1个视频镜头和第i个视频镜头之间的差,用步骤a中提取出的视频镜头的关键帧P<sub>i+1</sub>和P<sub>i</sub>之间的欧氏距离来计算;计算视频总体运动强度特征S:根据计算出的<img file="FDA0000372773390000015.GIF" wi="60" he="70" />和D,利用公式<img file="FDA0000372773390000016.GIF" wi="294" he="84" />计算广告视频图像数据的总体运动强度特征,其中v<sub>1</sub>,v<sub>2</sub>是预先设定的比例系数;步骤c:计算广告视频图像数据的静态视觉特征:首先计算一个广告视频图像数据中所有视频镜头关键帧图像的亮度特征,对比度特征,高频边缘空间分布特征、色相计数特征,饱和度特征,视彩度特征,自然性特征等特征;然后将它们平均起来作为该广告视频图像数据相应的静态视觉特征;提取每一个输入的广告视频图像数据的听觉特征,具体步骤如下:步骤d:利用Olivier Lartillot和Petri Toiviainen在2008年发布的MIRtoolbox工具箱,对输入的每个广告视频图像数据,计算其音频信号的均方根能量特征rms1,平均过零率特征zcr1以及短时能量曲线ste_curve,短时平均过零率曲线zcr_curve,粗糙度曲线rough_curve;步骤e:利用步骤d计算出的短时能量曲线ste_curve来计算广告视频图像数据音频信号的低短时能量率特征lster和窗内短时能量方差特征<img file="FDA0000372773390000021.GIF" wi="118" he="77" />其中,计算窗内短时能量方差特征时,首先对音频信号的短时能量曲线进行分割,每十帧分为一个小窗,对每个小窗j用公式<img file="FDA0000372773390000022.GIF" wi="594" he="148" />计算其窗内短时能量方差<img file="FDA0000372773390000023.GIF" wi="163" he="85" />其中,ste(k)表示第k个时间帧的短时能量值,<img file="FDA0000372773390000024.GIF" wi="95" he="87" />表示第j个窗中10帧音频信号短时能量的平均值;然后用公式<img file="FDA0000372773390000025.GIF" wi="352" he="142" />求所有窗的窗内短时能量方差的平均值<img file="FDA0000372773390000026.GIF" wi="91" he="75" />,其中,w是指将整段音频信号短时能量曲线分割成的窗的个数;步骤f:利用步骤d计算出的粗糙度曲线rough_curve来计算广告视频图像数据音频信号的粗糙度特征;计算公式如下:R_roughness=C1/C,其中,C为音频信号的总帧数,C1为音频信号粗糙度曲线中粗糙度值大于αm的帧数,m为粗糙度曲线上的最大值,α为一个预先设定的阈值;步骤g:利用步骤d计算出的短时平均过零率曲线zcr_curve来计算广告视频图像数据音频信号的高过零率比特征hzcrr和语音、音乐信号成分比例特征R_speech以及R_music;其中:计算语音、音乐信号成分比例特征时,首先对音频信号的短时平均过零率曲线进行分割,每十帧分为一个小窗,对每个窗计算一个局部高过零率比hzcrr<sub>j</sub>;然后根据speech={j|0.1<hzcrr<sub>j</sub><0.25}来找出所有窗中的语音窗,放入语音信号集合speech中;再根据music={j|hzcrr<sub>j</sub>=0}来找出所有窗中的音乐窗,放入音乐窗集合music中;最后,分别统计两个集合中窗的个数C<sub>speech</sub>和C<sub>music</sub>;用公式R_speech=C<sub>speech</sub>/C和R_music=C<sub>music</sub>/C计算广告视频音频信号中语音及音乐信号占的比例;步骤h:计算广告视频图像数据音频信号的MFCC特征:首先利用MIRtoolbox工具箱计算音频信号的MFCC系数,然后对MFCC系数进行一阶和二阶差分,将MFCC系数以及其差分结果都作为广告视频的听觉特征;步骤2:训练分类模型:用吸引力已知的广告视频图像数据集作为训练样本集,利用步骤1中的方法,提取训练样本集中广告视频图像数据的视觉特征以及听觉特征,然后构成一个58维的特征向量,利用训练样本集中广告视频图像数据的吸引力类别作为训练标签,训练得到一个支持向量机分类模型;步骤3:对于一个输入的广告视频图像数据,首先通过步骤1提取其视觉特征和听觉特征,然后利用步骤2中得到的支持向量机分类模型,对该广告视频图像数据的吸引力进行分类,分为吸引力大或吸引力小,将分类结果作为对该广告视频图像数据吸引力的判定结果。
地址 710072 陕西省西安市友谊西路127号