发明名称 一种确定视频哈希有效长度的方法
摘要 本发明公开了一种确定视频哈希有效长度的方法。该方法能够在大数据集的环境中,仅通过部分数据的训练就能确定全部数据集中近似最佳的哈希长度,为哈希长度的确定提供了一种更快捷且参考依据的方式。实验结果表明本发明所确定的哈希码长是可信的。
申请公布号 CN104933182A 申请公布日期 2015.09.23
申请号 CN201510385250.6 申请日期 2015.06.30
申请人 孙建德 发明人 孙建德;王戊林;李静
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种确定视频哈希有效长度的方法,包括以下步骤:1)从视频库的每类中随机选取数量相同的部分视频作为训练样本,然后将训练样本的特征映射为一定长度的哈希比特:假设训练集中包含a类视频,每类视频包括一种原始视频和另外b种经过不同处理的视频,对所有视频做相同的特征提取得到F,F=[f<sub>10</sub>,f<sub>11</sub>,...,f<sub>1b</sub>,..,f<sub>a0</sub>,f<sub>a1</sub>,...,f<sub>ab</sub>]′,f<sub>ij</sub>表示第i类视频中经过第j种处理的视频对应的特征,f<sub>i0</sub>表示第i类视频的原始视频的特征,然后将特征映射成r长度的哈希H<sup>(r)</sup>,<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msup><mi>H</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></msup><mo>=</mo><mo>&lsqb;</mo><msubsup><mi>h</mi><mn>10</mn><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>h</mi><mn>11</mn><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>h</mi><mrow><mn>1</mn><mi>b</mi></mrow><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>h</mi><mrow><mi>a</mi><mn>0</mn></mrow><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>h</mi><mrow><mi>a</mi><mn>1</mn></mrow><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>h</mi><mrow><mi>a</mi><mi>b</mi></mrow><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></msubsup><mo>&rsqb;</mo><mo>,</mo></mrow>]]></math><img file="FDA0000752496410000011.GIF" wi="902" he="101" /></maths>各个不同长度的哈希组成H,H=[H<sup>(1)</sup>,H<sup>(2)</sup>,...,H<sup>(L)</sup>]′,其中<img file="FDA0000752496410000012.GIF" wi="83" he="101" />表示第i类视频中经过第j种处理的视频对应r长度的哈希;2)对于一定长度r=r<sub>m</sub>的哈希<img file="FDA0000752496410000013.GIF" wi="142" he="76" />进行如下操作:2‑1)对于训练样本,将每一类中原始视频得到的哈希与其余所有类的所有视频对应的哈希进行匹配,通过设定阈值T来判断其余视频是否为原视频的拷贝视频;如果原视频哈希与其余视频哈希之间不同位数的比例小于这个阈值T,即误码率小于阈值T,则认为该视频为拷贝视频,反之,不是拷贝视频;2‑2)分别计算拷贝视频的误码率和非拷贝视频的误码率,然后分别估计出拷贝视频的误码率概率分布和非拷贝视频的误码率概率分布;2‑3)采用函数f<sub>1</sub>(x)和f<sub>2</sub>(x)分别对两个概率分布进行拟合,x表示误码率;2‑4)根据上述两个拟合函数,利用f<sub>1</sub>(x)=f<sub>2</sub>(x),求出二者的交点坐标x<sub>0</sub>;同时,将拷贝视频误码率曲线和非拷贝视频误码率曲线的交叉区域的面积,称作碰撞概率,计算出一定哈希长度r<sub>m</sub>对应的碰撞概率p(r<sub>m</sub>);3)对于不同长度r对应的哈希H<sup>(r)</sup>都进行上述步骤2)的操作,得到不同哈希长度r对应的碰撞概率p(r),通过统计分析得到训练集中的碰撞概率p(r)与哈希长度r的关系,选取碰撞概率收敛时所对应的哈希长度r<sub>train</sub>作为哈希的最佳长度;最后,根据总数据集与训练数据集在数量级上的差别,N<sub>all</sub>表示总数据集的数量,N<sub>train</sub>表示训练集的数量,根据差别的二进制表示,可以通过增加一定长度的比特位来确定总数据集上的最佳哈希长度r<sub>all</sub>,<img file="FDA0000752496410000021.GIF" wi="525" he="174" />其中符号<img file="FDA0000752496410000022.GIF" wi="86" he="75" />表示向上取整函数。
地址 250100 山东省济南市历城区山大南路27号山东大学信息科学与工程学院