一种互联网视频的字幕匹配与检索方法,申请号CN201410423582.4-传众专利搜索

发明名称	一种互联网视频的字幕匹配与检索方法
摘要	本发明是一种互联网视频的字幕匹配与检索方法，包括以下步骤：针对已有文本字幕的视频文件，构建索引；得到按照Sms划分的视频的基础音频特征序列Z序列：Z<sub>1</sub>Z<sub>2</sub>Z<sub>3</sub>Z<sub>4</sub>Z<sub>5</sub>...Z<sub>n</sub>和积分和序列,T序列：T<sub>1</sub>T<sub>2</sub>T<sub>3</sub>T<sub>4</sub>...T<sub>n-9</sub>；每个字幕对应一个Z序列片段对视频字幕的检索，在视频索引库里对于每一个视频，取出它的T序列，设为序列A：A<sub>1</sub>A<sub>2</sub>A<sub>3</sub>...A<sub>n</sub>，片段Seg的T序列，设为序列B：B<sub>1</sub>B<sub>2</sub>B<sub>3</sub>...B<sub>m</sub><sub>，</sub>计算序列A和序列B最佳匹配，并计算最佳匹配的欧式距离，查找得到距离最小的视频V，作为匹配得到的视频；对匹配得到的视频里的每个字幕，进行反匹配寻找最佳匹配，实现字幕匹配。本发明基于音频数据来建立索引，提供一个针对格式不同视频的一种字幕索引机制及字幕检测方法，高效而且准确。
申请公布号	CN104156478A	申请公布日期	2014.11.19
申请号	CN201410423582.4	申请日期	2014.08.26
申请人	中译语通科技（北京）有限公司	发明人	程国艮;袁翔宇;王宇晨
分类号	G06F17/30(2006.01)I;H04N21/254(2011.01)I;H04N5/278(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京知本村知识产权代理事务所 11039	代理人	周自清
主权项	一种互联网视频的字幕匹配与检索方法，其特征在于，包括以下步骤：步骤一、针对已有文本字幕的视频文件，构建索引；（1）对视频的音频数据进行分析，如果视频有多个声道，则将多声道数据合并为1声道；（2）将音频数据采样率归一化；（3）对音频数据进行分帧；（4）对于每一帧，计算过零率，得到按照 S ms 划分的视频的基础音频特征序列Z序列：Z<sub>1</sub>Z<sub>2</sub>Z<sub>3</sub>Z<sub>4</sub>Z<sub>5</sub>...Z<sub>n</sub>;（5）对于每一个视频，除了保存基础音频特征序列外，还保存一个时间窗口为1000ms的积分和序列,T序列：T<sub>1</sub>T<sub>2</sub>T<sub>3</sub>T<sub>4</sub>...T<sub>n‑9</sub>，其中，Tn = Zn+Zn+1+...+Zn+9；每个字幕对应一个Z序列片段；步骤二：视频字幕的检索（1）对于互联网上的视频 I，按照上述步骤一中（1）、（2）步骤进行音频数据的归一化处理；（2）通过端点检测算法，区分出人声和非人声；（3）对视频I，在其中取出人声密集的片段Seg，片段Seg的长度为10‑30秒；（4）按照上述步骤一的方法，计算出片段Seg的基础音频特征序列Z序列和积分和序列T序列；（5）在视频索引库里对于每一个视频，取出它的T序列，设为序列A：A<sub>1</sub>A<sub>2</sub>A<sub>3</sub>...A<sub>n</sub>，片段Seg的T序列，设为序列B：B<sub>1</sub>B<sub>2</sub>B<sub>3</sub>...B<sub>m</sub><sub>，</sub>计算序列A和序列B最佳匹配，并计算最佳匹配的欧式距离，计算方法如下：<img file="2014104235824100001dest_path_image001.GIF" wi="9" he="26" />、从序列A的头部取出和序列B同样长度的数据：A<sub>1</sub>A<sub>2</sub>A<sub>3</sub>...A<sub>m</sub>，计算该数据与序列B：B<sub>1</sub>B<sub>2</sub>B<sub>3</sub>...B<sub>m</sub>：的欧式距离；<img file="246123dest_path_image002.GIF" wi="14" he="26" />、将子序列偏移k，即序列A<sub>1+k</sub>A<sub>2+k</sub>A<sub>3+k</sub>...A<sub>m+k</sub>，计算与序列B的欧式距离；<img file="2014104235824100001dest_path_image003.GIF" wi="19" he="26" />、将子序列偏移2k，即序列A<sub>1+2k</sub>A<sub>2+2k</sub>A<sub>3+2k</sub>...A<sub>m+2k</sub>，计算与序列B的欧式距离；<img file="421890dest_path_image004.GIF" wi="19" he="26" />、如此，直到扫描完全部序列；<img file="2014104235824100001dest_path_image005.GIF" wi="14" he="26" />、找出匹配欧式距离最短的子序列 A<sub>1+jk</sub>A<sub>2+jk</sub>A<sub>3+jk</sub>...A<sub>m+jk</sub>，进行更细致的扫描，也找出序列集合 A<sub>1+jk+d</sub>A<sub>2+jk+d</sub>A<sub>3+jk+d</sub>...A<sub>m+jk+d</sub>，其中 ‑m/2 <= d <= m/2 里，与序列BB<sub>1</sub>B<sub>2</sub>B<sub>3</sub>...B<sub>m</sub>欧式距离最短的序列，作为最佳匹配序列；最佳匹配序列与序列B的距离为片段Seg与视频的距离；（6）查找得到距离最小的视频V，作为匹配得到的视频；（7）对匹配得到的视频里的每个字幕，进行反匹配，计算出输入视频的积分序列，作为A序列，按照步骤二（5）的流程，以每个字幕对应的Z序列片段为B序列，寻找最佳匹配，实现字幕匹配。
地址	100040 北京市石景山区八大处高科技园区西井路3号3号楼7473房间