一种新闻视频故事单元关联方法,申请号CN200810031576.9-传众专利搜索

发明名称	一种新闻视频故事单元关联方法
摘要	本发明公开了一种新闻视频故事单元关联方法，目的是提供一种关联故事单元的方法，提高基于局部关键点的相似关键帧识别速度和准确性。技术方案是先对采集的待处理新闻视频进行预处理，按照时间选择策略构建子数据库，去除播音员镜头，并进行关键帧的场景分类；然后利用高斯差分DOG局部关键点探测方法和SIFT特征描述方法探测和描述局部关键点，得到局部关键点集；再采用层次过滤方法进行相似关键帧识别，得到相似关键帧；最后对故事单元之间的关联关系进行判断，得到子数据库中和不同子数据库之间的故事单元之间的关联关系。采用本发明能够提高识别的准确性和速度，满足用户对新闻视频数据的跟踪、组织和检索的需求。
申请公布号	CN101315631A	申请公布日期	2008.12.03
申请号	CN200810031576.9	申请日期	2008.06.25
申请人	中国人民解放军国防科学技术大学	发明人	吴玲达;谢毓湘;文军;栾悉道;杨征;曾璞;邓莉琼
分类号	G06F17/30(2006.01);G06K9/00(2006.01);G06K9/46(2006.01)	主分类号	G06F17/30(2006.01)
代理机构	国防科技大学专利服务中心	代理人	郭敏
主权项	1.一种新闻视频故事单元关联方法，其特征在于包括以下步骤：第一步，对采集的待处理新闻视频进行预处理，即提取新闻视频的镜头结构、故事单元结构和关键帧特征，并将相关信息存储到已有的视频数据库中；第二步，按照时间选择策略在视频数据库中确定需要的视频数据，将这些视频数据与经过预处理的视频数据一起构建成一个进行相似关键帧识别的子数据库，去除子数据库中播音员镜头，并进行关键帧的场景分类以进一步对数据进行分组：2.1按照时间选择策略构建子数据库，时间选择策略为：若待处理视频与数据库中数据相比，时间是最新，则选择该时间点之前T天的数据构建子数据库，T为自然数；若待处理视频与数据库中数据相比，时间不是最新的，则以该时间点为中心，选择前后延续T天的视频数据构建子数据库；2.2在子数据库中去除播音员镜头，方法是：2.2.1设一段视频中探测到人脸的镜头代表帧集合为S＝{k0，k1，...，kn-1}，ki为镜头关键帧，n表示代表帧数量，是一个大于1的自然数，定义关键帧ki和关键帧kj的人脸属性之间的距离为dij，dij＝D(ki，kj)＝1-Sim(ki，kj)(1)其中，0≤i，j≤n-1，Sim(ki，kj)表示关键帧ki和关键帧kj人脸位置和大小属性之间的相似程度，<math><mrow><mi>Sim</mi><mrow><mo>(</mo><msub><mi>k</mi><mi>i</mi></msub><mo>,</mo><msub><mi>k</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mi>ψ</mi></mtd><mtd><mi>if</mi></mtd><mtd><mi>ψ</mi><mo><</mo><mo>=</mo><mn>1</mn></mtd></mtr><mtr><mtd><mi>ψ</mi></mtd><mtd><mi>if</mi></mtd><mtd><mi>ψ</mi><mo>></mo><mn>1</mn></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>ψ＝[size(fki)/size(fkj)+px(fki)/px(fkj)+py(fki)/py(fkj)]/3(3)size(fki)表示关键帧ki中人脸区域的大小，size(fkj)表示关键帧kj中人脸区域的大小，px(fki)表示关键帧ki中人脸区域水平方向坐标，px(fkj)表示关键帧kj中人脸区域水平方向坐标，py(fki)表示关键帧ki中人脸区域垂直方向坐标，py(fkj)表示关键帧kj中人脸区域垂直方向坐标；利用公式(1)计算所有探测到人脸的关键帧之间人脸属性的距离，得到距离矩阵Δ＝[dij\|0≤i，j＜n]；2.2.2对关键帧之间的属性距离进行阈值聚类，即对于给定的阈值α，α的取值范围为[0，1]，若dij＜α，则代表关键帧ki和关键帧kj属于同一类，这样把镜头代表帧集S分为若干个类；2.2.3基于人物和人物边缘区域颜色进行特征提取，方法是：2.2.3.1将每个镜头代表帧ki分割为e小块，e＝6×6，每一小块使用HSV颜色模型的12维直方图表示其视觉特征；2.2.3.2当播音员镜头中只有一个人脸时，人脸尺寸的大小在e＝36时覆盖了其中的4块，人脸下部临近的4块区域是人物躯干，对这8块区域计算相似度：设聚类处理的结果中某一示例图像为Q1，Q1的第m个分块的直方图特征矢量为HQ1，m(hq0，hq1，...，hq11)，聚类中的某一图像为Q2，Q2对应第m个分块的直方图特征矢量为HQ2，m(hs0，hs1，...，hs11)，其中，0≤hq1，t≤1，0≤hq2，t≤1(t∈[0，1，…，11])为归一化的比例值，利用直方图交算法对Q1和Q2进行局部颜色相似性度量：<math><mrow><mi>Sim</mi><mrow><mo>(</mo><msub><mi>Q</mi><mn>1</mn></msub><mo>,</mo><msub><mi>Q</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mn>8</mn></munderover><mi>sim</mi><mrow><mo>(</mo><mi>H</mi><msub><mi>Q</mi><mrow><mn>1</mn><mo>,</mo><mi>m</mi></mrow></msub><mo>,</mo><mi>H</mi><msub><mi>Q</mi><mrow><mn>2</mn><mo>,</mo><mi>m</mi></mrow></msub><mo>)</mo></mrow><mo>/</mo><mn>8</mn><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mn>8</mn></munderover><mrow><mo>(</mo><munderover><mi>Σ</mi><mrow><mi>t</mi><mo>=</mo><mn>0</mn></mrow><mn>11</mn></munderover><mi>min</mi><mrow><mo>(</mo><msub><mi>hq</mi><mrow><mn>1</mn><mo>,</mo><mi>i</mi></mrow></msub><mo>,</mo><msub><mi>hs</mi><mrow><mn>2</mn><mo>,</mo><mi>i</mi></mrow></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>/</mo><mn>8</mn><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>m∈[1，2，…，8]，表示对应的8个分块；2.2.3.3对于基于阈值聚类处理所得每一个类型，基于人物和人物边缘背景的区域的HSV颜色特征按照局部颜色距离进行阈值聚类，将各个类型分成更小的的子类；2.2.3.4对通过局部颜色相似性分析所得的子类选择包含镜头数量大于3的子类，方法是选择同时满足以下三个条件的包括播音员镜头的子类：(1)子类中镜头总时间长度之和最长；(2)子类中镜头的时间分布比较均匀；(3)子类中镜头之间最大时间跨度覆盖视频的始末；2.2.3.5将播音员镜头的关键帧从子数据库中去除；2.3对子数据库中的新闻播报关键帧进行场景分类，并设定匹配分析关键帧的类型选择规则，方法是：人脸位置处于最左侧或最右侧两列分块中的作为新闻评论员类型，人脸出现在其他位置的作为新闻人物类型，将新闻播报中的视频关键帧分类为：新闻评论员、新闻人物、事件场景三种类型；设定关键帧匹配分析遵循的规则为：属于新闻人物类型的关键帧只与新闻人物类型的关键帧进行匹配；新闻评论员类型与事件场景类型的关键帧可以相互。第三步，利用高斯差分DOG局部关键点探测方法和SIFT特征描述方法探测和描述局部关键点，得到局部关键点集；第四步，采用层次过滤方法进行相似关键帧识别，得到相似关键帧：4.1通过“熵”进行第一层过滤，获取相似关键帧候选集，方法是：4.1.1依次对一幅关键帧中的每一个局部关键点与另一幅关键帧所有局部关键点进行匹配计算，得到关键帧之间所有的匹配关键点，方法为：计算关键帧k1中的局部关键点A与关键帧k2中所有局部关键点之间的SIFT特征的距离，计算最小距离和次小距离之间的比率，当关键帧k2中的局部关键点A′与k1中的局部关键点A之间最小距离和次小距离的比率小于阈值β时，则判定关键帧k1中的局部关键点A与关键帧k2中的最小距离点A′为匹配点，β＝0.75；4.1.2计算关键帧之间的匹配点的连接线即匹配线AA′与垂直轴h之间的夹角θ，<math><mrow><mi>θ</mi><mo>=</mo><mi>arccos</mi><mrow><mo>(</mo><mfrac><mrow><msub><mi>y</mi><mn>1</mn></msub><mo>-</mo><msub><mi>y</mi><mn>0</mn></msub></mrow><mrow><msqrt><mrow><msup><mrow><mo>(</mo><msub><mi>x</mi><mn>1</mn></msub><mo>+</mo><mi>w</mi><mo>-</mo><msub><mi>x</mi><mn>0</mn></msub><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msub><mi>y</mi><mn>1</mn></msub><mo>-</mo><msub><mi>y</mi><mn>0</mn></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>w为关键帧的像素宽度，(x0，y0)为A的坐标，(x1，y1)为A′的坐标，θ的范围为0～180°；4.1.3将0至180度的角度范围进行分划，建立角度直方图；将θ投影到直方图中进行相似关键帧候选集判断，方法是：4.1.3.1如果全部匹配线的数量Num(P)小于阈值η，η＝3，则将匹配关键帧识别为不相似关键帧，否则，执行步骤4.1.2；P＝[p1，p2，…，pz]，1≤z≤36，pu是直方图中各个非空的维度，Num(pu)为各个维度内的匹配线数量，且Num(pu)≥1，1≤u≤36，Num(P)为全部匹配线的数量；4.1.3.2对各非空的维度，求Num(pu)与Num(pu)的最大值Maxnum的商D，<math><mrow><mi>D</mi><mo>=</mo><mfrac><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>u</mi></msub><mo>)</mo></mrow></mrow><mi>MaxNum</mi></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>如果D小于阈值γ，γ＝0.1，则判定维度中包含的匹配线为噪声干扰，对判断为噪声的维度进行过滤，即将直方图中该维度的值修改为零；4.1.3.3如果非空的维度数大于1，判断数值最大的维度和第二大的维度的分布位置，如果二者位置相邻或者只相差一个维度，则执行步骤4.1.3.4，如果数值最大的维度和第二大的维度的分布位置相差多个维度，则将两幅关键帧判断成不相似关键帧；4.1.3.4采用“熵”的判别方法对相似关键帧候选集进行识别，方法是：定义模式熵PE为：<math><mrow><mi>PE</mi><mo>=</mo><mo>-</mo><munderover><mi>Σ</mi><mrow><mi>u</mi><mo>=</mo><mn>1</mn></mrow><mi>z</mi></munderover><mfrac><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>u</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>Num</mi><mrow><mo>(</mo><mi>P</mi><mo>)</mo></mrow></mrow></mfrac><mo>×</mo><mi>log</mi><mrow><mo>(</mo><mfrac><mrow><mi>Num</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>u</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>Num</mi><mrow><mo>(</mo><mi>P</mi><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>PE的值分布在区间[0，1]上，PE为0时，表示P包含唯一子集，所有匹配线近似平行；当PE为1时，表示匹配线均匀分布在P子集中；若PE＜λ，λ＝0.05，判定k1和k2为相似关键帧候选对象，反之为不相似关键帧；4.2对相似关键帧候选集基于对称性匹配进行第二层过滤，获得最终相似关键帧，过滤方法是：如果按照k1到k2的顺序进行相似关键帧匹配后，判断k1和k2是一对相似关键帧候选对象，则按照k2到k1的顺序进行相似关键帧匹配，如果判断结果为k2和k1 也是相似关键帧，则k1和k2是一对可信的相似关键帧；如果判断结果为k2和k1不是相似关键帧，则k1和k2是不相似的关键帧；第五步，对故事单元之间的关联关系进行判断，方法如下：5.1对子数据库中的故事单元之间关联关系进行判断：5.1.1在一个子数据库内，依次对所有的故事单元两两进行判断，看是否出现相似关键帧，若两个故事单元之间出现相似关键帧，则判定这样的故事单元之间具有直接关联关系；对于没有出现相似关键帧的故事单元，转5.1.2；5.1.2在一个子数据库内，对于没有直接关联关系的故事单元，利用故事单元关联关系的传递性判断是否存在关联，如果存在关联关系，则判定故事单元之间存在间接的关联关系，故事单元关联关系的传递性定义如下：对于两对故事单元(S1，S2)和(S2，S3)，如果S1和S2是具有关联关系的故事单元，S2和S3是具有关联关系的故事单元，则推断S1和S3也是具有关联关系的故事单元；5.2对时间相邻的不同子数据库之间的故事单元的关联关系进行判断，方法如下：子数据库之间存在的共有的故事单元是子数据库之间的交集，交集中的故事单元与各个子数据库中其它故事单元存在关联关系，以交集中故事单元在各个子数据库中的关联关系为依据，利用故事单元关联关系的传递性，对相邻的子数据库中故事单元得到间接的关联关系，循环这个过程直到所有相邻的子数据库之间故事单元关联关系都判断完毕，得到视频数据库中比较完整的故事单元关联结果。
地址	410073湖南省长沙市砚瓦池正街47号