发明名称 一种多媒体视频对象处理方法
摘要 本发明公开了一种多媒体视频对象处理方法。其步骤包括:(1)基于宏块信息对MPEG视频进行场景分割;(2)预读要拼接的视频,取得各类信息并寻找合适的拼接场景;(3)寻找拼接的入点和出点,对接入视频各种信息进行调整;(4)选取合适的音频拼接点实现音视频无缝拼接;(5)设置视频缓冲区,统一待拼接视频的码率;(6)在时间域对视频内运动对象进行粗提取;(7)对粗提取结果进行分水岭处理,进行时空区域合并精确分割对象。本发明算法简单、高效,系统资源消耗低,处理速度快,精度高。
申请公布号 CN101409831B 申请公布日期 2010.10.27
申请号 CN200810062899.4 申请日期 2008.07.10
申请人 浙江师范大学 发明人 朱信忠;徐慧英;赵建民;顾海燕;胡丞懿
分类号 H04N7/24(2006.01)I;H04N7/26(2006.01)I;H04N7/62(2006.01)I;G06T5/00(2006.01)I;G06T7/20(2006.01)I 主分类号 H04N7/24(2006.01)I
代理机构 浙江杭州金通专利事务所有限公司 33100 代理人 徐关寿
主权项 一种多媒体视频对象处理方法,所述方法包括以下步骤:(1)标准的MPEG视频格式的语法结构的最上层是帧图像组,由三种主要的压缩类型的图像帧组成,包括I帧、P帧、B帧;一个帧图像组可分为3种子类,其特征在于,在处理视频时,分别对每个子类中各帧的宏块的类型进行分析,凡是满足一定规则的,就认为有一个宏块发生了变化,将各帧发生变化的宏块个数与总的宏块个数相比得到镜头变化可能程度c,c越接近1,表明镜头发生转换的几率就越大;设置某个阈值t,若c>t,则认为场景发生了变化,进行分割;所述步骤(1)具体包括以下步骤:(1.1)MPEG视频中的一个帧图像组由三种主要的压缩类型的图像帧组成,包括I帧、P帧、B帧,其标准结构为:IBBPBBPBBPBBPBB;将帧图像组分为三类子类:PBBP结构子类,PBBI结构子类和IBBP结构子类;在帧图像组的所述标准结构中,按顺序排列的前一个子类的最后一帧图像即是后面一个子类的第一帧图像,所以除帧图像组第一个子类外只需分析其它子类的最后3帧图像即可;(1.2)将可能发生在一个帧图像组中的场景变换分为三类:变换发生在P帧或I帧,称为SPI;变换发生在前面的B帧,称为SFB;变换发生在后面的B帧,称为SRB;(1.3)宏块的变化类型参考以下规则:(1.3.1)对于SPI而言,两个B帧图像Bf和Br的大多数宏块都是前向运动补偿方式,称为F模式,它们与后面的参考帧Pr更相似;参考帧Pr为场景变换所在的帧,大多数宏块都是帧内编码,称为I模式;(1.3.2)对于SFB而言,参考帧Pr中的大多数宏块也是I模式,但是由于在B帧图像Bf处镜头内容发生了变化,B帧图像Bf和B帧图像Br图像的内容与后面参考帧的内容相似,因此两个B帧的大多数宏块将是后向运动补偿方式,称为B模式;(1.3.3)对于SRB,由于镜头内容在后面的B帧处发生了变化,所以B帧图像Bf与后面的参考帧不相似,它的大多数宏块为F模式;而B帧图像Br与前面的参考帧不相似,它的大多数宏块为B模式;(1.4)在检测镜头时,分别对子类各帧的宏块类型进行分析,凡是类型关系满足上述规则之一的,就认为有一个宏块发生了变化;(1.5)统计各帧中宏块发生变化的次数,与总的宏块数量相比,若大于一定的阈值t,则认为场景发生了变化,进行切割;(2)预读两个要进行拼接的标准MPEG视频流,分别找到两个视频流的节目关联表,通过节目关联表找到相应的节目映射表,然后在节目映射表里面得到音频、视频和节目时钟基准的识别符的信息,并寻找合适的拼接场景;(3)寻找视频拼接的入点和出点,并对接入的视频流的各种信息进行调整,主要包括:视频流的节目专用信息,音频及视频传输流数据包的识别符,包含节目时钟基准的传输流数据包的识别符,以及所有这些传输流数据包的版本号,同时修改第二个视频流的时间信息;(4)根据已经存在的视频拼接点选取合适的音频拼接点,保证音频和视频同步拼接;(5)设置视频缓冲区验证模型,使解码器输入端有码流缓冲区,使不规则的帧边界规则化;同时通过调节视频流中空包的数量,将进行拼接的两个视频的码率调整为一致,保证视频的无缝拼接;(6)基于变化检测对视频图像进行提取:首先将两帧彩色图像转化为灰度图像,设置合适的阈值得到灰度帧差掩模图像,同理取得HSV彩色空间的帧差掩模图像,两者进行或运算得到联合帧差图像;通过数学形态学的膨胀和腐蚀操作得到运动对象的形状区域并进行提取;(7)对得到的运动对象区域经预处理后进行分水岭变换,并进行时域和空域的区域合并,实现运动对象的精确分割。
地址 321004 浙江省金华市迎宾大道688号