发明名称 一种互联网视频的字幕匹配与检索方法
摘要 本发明是一种互联网视频的字幕匹配与检索方法,包括以下步骤:针对已有文本字幕的视频文件,构建索引;得到按照Sms划分的视频的基础音频特征序列Z序列:Z<sub>1</sub>Z<sub>2</sub>Z<sub>3</sub>Z<sub>4</sub>Z<sub>5</sub>...Z<sub>n</sub>和积分和序列,T序列:T<sub>1</sub>T<sub>2</sub>T<sub>3</sub>T<sub>4</sub>...T<sub>n-9</sub>;每个字幕对应一个Z序列片段对视频字幕的检索,在视频索引库里对于每一个视频,取出它的T序列,设为序列A:A<sub>1</sub>A<sub>2</sub>A<sub>3</sub>...A<sub>n</sub>,片段Seg的T序列,设为序列B:B<sub>1</sub>B<sub>2</sub>B<sub>3</sub>...B<sub>m</sub><sub>,</sub>计算序列A和序列B最佳匹配,并计算最佳匹配的欧式距离,查找得到距离最小的视频V,作为匹配得到的视频;对匹配得到的视频里的每个字幕,进行反匹配寻找最佳匹配,实现字幕匹配。本发明基于音频数据来建立索引,提供一个针对格式不同视频的一种字幕索引机制及字幕检测方法,高效而且准确。
申请公布号 CN104156478A 申请公布日期 2014.11.19
申请号 CN201410423582.4 申请日期 2014.08.26
申请人 中译语通科技(北京)有限公司 发明人 程国艮;袁翔宇;王宇晨
分类号 G06F17/30(2006.01)I;H04N21/254(2011.01)I;H04N5/278(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京知本村知识产权代理事务所 11039 代理人 周自清
主权项 一种互联网视频的字幕匹配与检索方法,其特征在于, 包括以下步骤:步骤一、针对已有文本字幕的视频文件,构建索引;(1)对视频的音频数据进行分析,如果视频有多个声道,则将多声道数据合并为1声道;(2)将音频数据采样率归一化; (3)对音频数据进行分帧; (4)对于每一帧,计算过零率,得到按照 S ms 划分的视频的基础音频特征序列Z序列:Z<sub>1</sub>Z<sub>2</sub>Z<sub>3</sub>Z<sub>4</sub>Z<sub>5</sub>...Z<sub>n</sub>;(5)对于每一个视频,除了保存基础音频特征序列外,还保存一个时间窗口为1000ms的积分和序列,T序列:T<sub>1</sub>T<sub>2</sub>T<sub>3</sub>T<sub>4</sub>...T<sub>n‑9</sub>,其中,Tn = Zn+Zn+1+...+Zn+9;每个字幕对应一个Z序列片段;步骤二:视频字幕的检索(1)对于互联网上的视频 I,按照上述步骤一中(1)、(2)步骤进行音频数据的归一化处理;(2)通过端点检测算法,区分出人声和非人声;(3)对视频I,在其中取出人声密集的片段Seg,片段Seg的长度为10‑30秒;(4)按照上述步骤一的方法,计算出片段Seg的基础音频特征序列Z序列和积分和序列T序列;(5)在视频索引库里对于每一个视频,取出它的T序列,设为序列A:A<sub>1</sub>A<sub>2</sub>A<sub>3</sub>...A<sub>n</sub>,片段Seg的T序列,设为序列B:B<sub>1</sub>B<sub>2</sub>B<sub>3</sub>...B<sub>m</sub><sub>,</sub>计算序列A和序列B最佳匹配,并计算最佳匹配的欧式距离,计算方法如下:<img file="2014104235824100001dest_path_image001.GIF" wi="9" he="26" />、从序列A的头部取出和序列B同样长度的数据:A<sub>1</sub>A<sub>2</sub>A<sub>3</sub>...A<sub>m</sub>,计算该数据与序列B:B<sub>1</sub>B<sub>2</sub>B<sub>3</sub>...B<sub>m</sub>:的欧式距离;<img file="246123dest_path_image002.GIF" wi="14" he="26" />、将子序列偏移k,即序列A<sub>1+k</sub>A<sub>2+k</sub>A<sub>3+k</sub>...A<sub>m+k</sub>,计算与序列B的欧式距离;<img file="2014104235824100001dest_path_image003.GIF" wi="19" he="26" />、将子序列偏移2k,即序列A<sub>1+2k</sub>A<sub>2+2k</sub>A<sub>3+2k</sub>...A<sub>m+2k</sub>,计算与序列B的欧式距离;<img file="421890dest_path_image004.GIF" wi="19" he="26" />、如此,直到扫描完全部序列;<img file="2014104235824100001dest_path_image005.GIF" wi="14" he="26" />、找出匹配欧式距离最短的子序列 A<sub>1+jk</sub>A<sub>2+jk</sub>A<sub>3+jk</sub>...A<sub>m+jk</sub>,进行更细致的扫描,也找出序列集合 A<sub>1+jk+d</sub>A<sub>2+jk+d</sub>A<sub>3+jk+d</sub>...A<sub>m+jk+d</sub>,其中 ‑m/2 &lt;= d &lt;= m/2 里,与序列BB<sub>1</sub>B<sub>2</sub>B<sub>3</sub>...B<sub>m</sub>欧式距离最短的序列,作为最佳匹配序列;最佳匹配序列与序列B的距离为片段Seg与视频的距离;(6)查找得到距离最小的视频V,作为匹配得到的视频;(7)对匹配得到的视频里的每个字幕,进行反匹配,计算出输入视频的积分序列,作为A序列,按照步骤二(5)的流程,以每个字幕对应的Z序列片段为B序列,寻找最佳匹配,实现字幕匹配。
地址 100040 北京市石景山区八大处高科技园区西井路3号3号楼7473房间