发明名称 基于场景帧指纹的视频认证方法
摘要 基于场景帧指纹的视频认证方法,首先通过场景帧指纹判定方法,提取出视频片断中5个连续不同的场景帧指纹,组成视频指纹。然后与视频本身的ID信息组成元指纹数据,指纹信息采用Bag‑words形式存储,节省了75%的存储空间。在查找认证过程中,采用倒排文折半技术提高了匹配速度。经仿真实验,我们提出的视频认证方法具有良好的检测性能,平均准确率达到98%以上,在Matlab软环境下查找认证速度每部视频在12秒左右,能够实现网络环境下的实时检测。
申请公布号 CN106055632A 申请公布日期 2016.10.26
申请号 CN201610367884.3 申请日期 2016.05.27
申请人 浙江工业大学 发明人 毛家发;张明国;钟丹虹;高飞;肖刚
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州天正专利事务所有限公司 33201 代理人 王兵;黄美娟
主权项 基于场景帧指纹的视频认证方法,包括以下步骤:1)、对视频的帧的预处理;(1.1)对视频中的彩色帧进行颜色空间转换,取其亮度分量,得到灰度图像;(1.2)剪切视频帧四周,保留视频帧中心部分;再缩放成具有固定尺寸(W×H像素);(1.3)用3×3大小、标准差为0.95的Gaussian低通滤波对视频帧进行滤波;(1.4)将图像缩放成3/4QCIF大小(QCIF(144像素×176像素));2)、对经过预处理的视频帧进行指纹提取,包括以下步骤:(2.1)对经过预处理的视频帧,进行分块,在一个9×11的区域内,a至h是局部像素的平均;那么帧元素提取方法为:(1)整个9×11子区域的均值元素;(2)四个差分元素a‑b、c‑d、e‑f和g‑h;总共得到720帧元素,其中144个均值元素,记为A元素,576个差分元素,记为D元素;(2.2)对A元素量化成四重值;对于1‑144维的A元素,设A<sub>i</sub>为A元素值,ThA为量化阈值,应用公式(1)把这些A元素量化成四重值x<sub>i</sub>:<img file="FDA0001001385060000011.GIF" wi="838" he="295" />(2.3)动态地求取阈值ThA,包括以下几个步骤:(2.3.1)取a<sub>i</sub>=abs(A<sub>i</sub>‑128),abs(·)为取绝对值算子,将a<sub>i</sub>按升序排列成a<sub>k</sub>={a<sub>1</sub>,a<sub>2</sub>,…,a<sub>k</sub>,…,a<sub>N</sub>};这里的索引i与索引k不相同;(2.3.2)阈值ThA=a<sub>k</sub>,这里k=floor(0.25*N),N=144,floor为向下取整;(2.4)对D元素量化成四重值;对于145‑720维的D元素D<sub>i</sub>,ThD为量化阈值,应用公式(2)把它们量化成四重值x<sub>i</sub>:<img file="FDA0001001385060000012.GIF" wi="806" he="295" />(2.5)动态地求取阈值ThD,包括以下几个步骤:(2.5.1)取d<sub>i</sub>=abs(D<sub>i</sub>),abs(·)为取绝对值算子,将d<sub>i</sub>按升序排列成 d<sub>k</sub>={d<sub>1</sub>,d<sub>2</sub>,…,d<sub>k</sub>,…,d<sub>N</sub>};这里的索引i与索引k不相同;(2.5.2)阈值ThD=d<sub>k</sub>,这里k=floor(0.25*N),N=576,floor为向下取整;(2.6)用二进制编码形式来存储提取出来的4重元素X={x<sub>1</sub>,x<sub>2</sub>,…,x<sub>720</sub>}设word<sub>i</sub>,i=1,2,…,180定义为每4‑维元素占1个编码单元,这种编码方式采用如下公式计算得到:word<sub>i</sub>=4<sup>3</sup>*x<sub>(i‑1)*4+1</sub>+4<sup>2</sup>*x<sub>(i‑1)*4+2</sub>+4*x<sub>(i‑1)*4+3</sub>+x<sub>(i‑1)*4+4</sub>   (3)(2.7)场景帧指纹的提取算法,包括以下步骤:(2.7.1)是否为黑屏的判断;应用式(4)进行黑屏判断;mean(F)&lt;Th<sub>BS</sub>   (4)F为当前帧,mean(F)是表示图像像素的均值,Th<sub>BS</sub>是黑屏阈值;(2.7,2)是否为场景帧的判断;假设前一场景帧的指纹为SF<sub>i‑1</sub>,当前帧的指纹为F<sub>i</sub>,i=2,…,5;如果(5)成立,那么就判定当前帧为另一场景帧,否则当前帧还是前一场景帧;d(SF<sub>i‑1</sub>,F<sub>i</sub>)≥Th<sub>SF</sub>,i=2,…,5   (5)这里d(SF<sub>i‑1</sub>,F<sub>i</sub>)表示当前帧指纹F<sub>i</sub>前一场景帧指纹SF<sub>i‑1</sub>之间的距离,Th<sub>SF</sub>为判定阈值;3)视频指纹库的建立;将需要版权认证视频的用户信息、产品信息和指纹信息绑定在一条记录上,生成元数据(meta data),元数据集合构成元数据库,将其按按倒排文规则进行排序并存储;4)结合指纹特点:四重值(Quaternion value),提出了倒排文折半搜索匹配算法(inverted file&amp;binary‑based Search Matching),其步骤如下:(4.1)按式(3)将3600维指纹向量组合成900个word,即为Bag‑Words,每个word值范围为0‑255;(4.2)建立倒排文队列;每个视频指纹按第一个word大小从小到大顺序插入到倒排文队列中,如第一个word相同,那按第二个word的值升序排列,如此连续下去,直到所有的原视频指纹插入到倒排文队列中;以倒排文规则排序的视频指纹及视频信息构成元指纹数据库;(4.3)折半搜索匹配方法;假设待认证视频指纹的Bag‑Words序列为AuBW<sub>i</sub>,i=1,2,…,900;具体的折中搜索步骤如下:(4.3.1):将所有的元数据库中的记录标上未查标记;(4.3.2):取其第一个word为AuBW<sub>1</sub>,在倒排文队列中折中查找AuBW<sub>1</sub>,查找的结果可能会出现三种情况:A1)只有一条记录;那么将该记录中的Bag‑Words还原成四重值指纹MeF<sub>i</sub>,还原方法为每个word除4取余;按式(6)求其归一化Hamming距离d,Hamming距离是在数据传输差错控制编码里面的一个概念;<img file="FDA0001001385060000031.GIF" wi="942" he="198" />这里的i=1,2,…,L,L为指纹长度,AuF为认证视频的指纹;然后按(7)式进行求得值为T;<img file="FDA0001001385060000032.GIF" wi="644" he="223" />当T=0时,查询结束,表明该元记录所对应的视频就是需要认证的视频;当T=1时,记下该元数据的位置和Hamming距离,并将该记录标上已查标记;当T=2时,仅将该记录标上已查标记;A2)有多条记录;按(6)式计算出所有这些记录的Hamming距离,同时将这些记录标上已查标记;取最小Hamming距离,按(7)式进行求值,当T=0时,查询结束表明该元记录所对应的视频就是需要认证的视频;当T=1时,记下该元数据的位置和Hamming距离,当T=2时,不作任何处理,直接进入下一步;A3)没有记录;不作任何处理,直接进入下一步;(4.3.3):取其第i个word为AuBW<sub>i</sub>,i=2,3,…,K;在倒排文队列中折中查找AuBW<sub>i</sub>,查找的结果可能会出现四种情况;需要注意的是这里的K是个未知数,但一定满足K≤L/m;m为word的长度,在这里m=4;B1)有若干条已标有已查标记的记录;这种情况直接进入下一步;B2)仅有一条未标有已查标记的记录;这种情况按与(4.3.2)中A1)情况处理;B3)有多条未标有已查标记的记录;这种情况按与(4.3.2)中A2)情况处理;B4)没有记录;这种情况下按(4.3.2)中A3)情况处理;重复(4.3.3),直到出现T=0或所有记录都标上已查标记为止;(4.3.4):如果前二步是没有出现T=0情况,那么只有二种情况出现:C1)至少有一条记录满足T=1;这种情况取最小的Hamming距离那条元记录,这条元记录就是需要认证的视频;查询结束;C2)没有一条记录满足T=1;这种情况表明认证的视频不在元数据库中,发出拒绝信息;查询结束。
地址 310014 浙江省杭州市下城区潮王路18号浙江工业大学科技处