发明名称 一种联合字幕和视频图像信息进行场景分割和索引的方法
摘要 本发明涉及一种联合字幕和视频图像信息进行场景分割与索引的方法,其特征在于,每条字幕持续时间段内视频帧集合作为场景聚簇的最小单元,包括步骤:获得场景聚簇的最小单元后,抽取至少3个或以上不连续的视频帧作为该条字幕的视频关键帧集合;使用双向SIFT关键点匹配方法比较若干个相邻最小单元关键帧的相似性,再结合字幕关联转移图建立字幕与场景的初始归属关系;对于被判定为不相似的连续最小聚簇单元利用其对应字幕的相关性进一步判断其是否可以进行合并;根据所确定的字幕场景归属关系进行视频场景抽取。对所抽取的视频场景片段,使用该片段所包含的字幕文本所生成的前向和倒排索引作为检索该视频片段的依据。
申请公布号 CN101719144B 申请公布日期 2013.04.24
申请号 CN200910236887.3 申请日期 2009.11.04
申请人 中国科学院声学研究所 发明人 王劲林;李松斌;王玲芳
分类号 G06F17/30(2006.01)I;H04N5/262(2006.01)I;G11B27/10(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京法思腾知识产权代理有限公司 11318 代理人 杨小蓉
主权项 一种联合字幕和视频图像信息进行场景分割的方法,其特征在于,该方法将每条字幕持续时间段内视频帧集合作为进行场景聚簇的最小单元,包括如下步骤:11)获得进行场景聚簇的最小单元后,抽取至少3个或以上不连续的视频帧作为该条字幕的视频关键帧集合;12)通过比较若干个相邻最小单元关键帧的相似性,再结合字幕关联转移图进行连续字幕与视频场景之间的归属关系划分;所述的关键帧的相似性利用图像的尺度不变特征变换特征进行判断,具体步骤包括:首先,要对视频关键帧进行提升小波变换抽取子带,再对抽取的子带图像的三个颜色分量进行归一化处理,获得进行尺度不变特征变换特征提取的目标矩阵;然后,基于该目标矩阵进行子带图像尺度不变特征变换特征提取;最后,利用双向尺度不变特征变换关键点匹配方法判定关键帧图像的相似性,所述的双向尺度不变特征变换关键点匹配方法指如果子带图像A中的关键点x可匹配子带图像B中的关键点y并且y可匹配到x;当且仅当从不同关键帧中选取的低频和高频子带图像都相似两个关键帧才相似,子带图像相似的条件是能够双向匹配的尺度不变特征变换关键点数量达到所设置的阈值;所述的字幕关联转移图即对于字幕Di和Dj,i<j,如果有Di和Dj所对应的视频关键帧集合中存在相似的关键帧,则称字幕Di可转移到字幕Dj,此时创建一条从Di指向Dj的弧线,该弧线覆盖的所有字幕都认为属于同一场景,如果不同弧线之间存在交叉,则要进行弧线的合并操作;i、j为大于等于0的整数,是字幕的下标;针对相邻字幕关键帧图像不相似的,再进一步利用相邻字幕在语义、词形或时间方面的相关性进一步确定字幕和场景的归属关系,步骤包括:a)语义相关性判断的步骤:对于相邻字幕Di和Di+1如果Di的文本中包含疑问词或者Di+1的文本以连词作为起始字符,则字幕Di和Di+1在语义上属于同一场景;b)词形相关性判断的步骤:对字幕Di和Di+1所包含文本分别进行分词并抽取其中的实词作为关键词,如果Di和Di+1含有相同的关键词,则字幕Di和Di+1在所涉及的主题上属于同一场景;c)时间相关性判断的步骤:取字幕Di为中心的长度为L的窗口内相邻字幕平均出现时间间隔,如果字幕Di和Di+1的出现时间间隔与窗口L内字幕平均出现时间之比小于预定义的阈值则字幕Di和Di+1在出现时间上属于同一场景;L是指时间长度;针对已经基于连续字幕分离出的时间不连续的两个相邻场景,再利用基于字幕 提供的时间信息结合关键帧相似性方法判断这段不连续时间段内的视频关键帧图像的相似性,根据两个时间相邻的不相似帧之间存在切换点,依次找到这段不连续时间段内所有切换点,并找到切换点对应的时刻:DB1+1+(i‑1)/R,则可以获得视频所包含场景片段的精确分割时间;其中,DBl+1是第l+1字幕的开始时间,R为视频的帧率。
地址 100190 北京市海淀区北四环西路21号中国科学院声学研究所