一种视频资源语义标签的标定方法,申请号CN201110433167.3-传众专利搜索

发明名称	一种视频资源语义标签的标定方法
摘要	本发明公开了一种视频资源语义标签的标定方法，通过训练得到“标签-帧序列”样本集合，在这个样本集合的基础上，通过待标定视频资源关键帧序列提取，并与“标签-帧序列”中语义标签对应的帧序列进行相似度计算，然后再阀值判定，最终将语义标签集合K中合适的语义标签标定给待标定视频资源。本发明视频资源语义标签的标定方法克服了大量视频资源语义标签标定过程中人工操作的繁琐，并提高了标定的完备性及准确性，同时将语义标签限定到一个可控的范围中，即语义标签集合K中，另外，标定的语义标签可以根据对应的序列帧与待标定视频资源的相似度进行排序，因而可以实现列表化。
申请公布号	CN102542024A	申请公布日期	2012.07.04
申请号	CN201110433167.3	申请日期	2011.12.21
申请人	电子科技大学	发明人	孙健;徐杰;隆克平;谢发川;艾丽丽
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	成都行之专利代理事务所(普通合伙) 51220	代理人	温利平
主权项	1.一种视频资源语义标签的标定方法，其特征在于，包括以下步骤：(1)、采用传统语义标签标定方法对部分视频资源进行语义标签标定，得到标定的视频资源集{v<sub>dd</sub>}，剩余部分视频资源为待标定视频资源集{v<sub>new</sub>}；其中，语义标签为能够有效表达用户兴趣度的关键词；(2)、形成带语义细分的语义标签集合K在视频资源集{v<sub>old</sub>}中，首先根据语义标签在标定视频资源集{v<sub>dd</sub>}的描述过程中出现的频率，由高到低排序后，选取前n个的语义标签，构成语义标签集合K＝{tag<sub>1</sub>，tag<sub>2</sub>，tag<sub>3</sub>......tag<sub>n</sub>}，其中，tag<sub>1</sub>，tag<sub>2</sub>，tag<sub>2</sub>，…，tag<sub>n</sub>为依次排序的语义标签；然后，经过语义相似度分析，将语义标签集合K细分为：K＝{k<sub>1</sub>，k<sub>2</sub>，k<sub>3</sub>......k<sub>p</sub>}其中：……<maths num="0001"><![CDATA[<math><mrow><msub><mi>k</mi><mn>1</mn></msub><mo>=</mo><mo>{</mo><msub><mi>tag</mi><mrow><mi>k</mi><mn>1</mn><mo>_</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>tag</mi><mrow><mi>k</mi><mn>1</mn><mo>_</mo><mn>2</mn></mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>tag</mi><mrow><mi>k</mi><mn>1</mn><mo>_</mo><msub><mi>l</mi><mn>1</mn></msub></mrow></msub><mo>}</mo></mrow></math>]]></maths><maths num="0002"><![CDATA[<math><mrow><msub><mi>k</mi><mn>2</mn></msub><mo>=</mo><mo>{</mo><msub><mi>tag</mi><mrow><mi>k</mi><mn>2</mn><mo>_</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>tag</mi><mrow><mi>k</mi><mn>2</mn><mo>_</mo><mn>2</mn></mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>tag</mi><mrow><mi>k</mi><mn>2</mn><mo>_</mo><msub><mi>l</mi><mn>2</mn></msub></mrow></msub><mo>}</mo></mrow></math>]]></maths><maths num="0003"><![CDATA[<math><mrow><msub><mi>k</mi><mi>p</mi></msub><mo>=</mo><mo>{</mo><msub><mi>tag</mi><mrow><mi>kp</mi><mo>_</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>tag</mi><mrow><mi>kp</mi><mo>_</mo><mn>2</mn></mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>tag</mi><mrow><mi>kp</mi><mo>_</mo><msub><mi>l</mi><mi>p</mi></msub></mrow></msub><mo>}</mo></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mrow><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>p</mi></munderover><msub><mi>l</mi><mi>i</mi></msub><mo>=</mo><mi>n</mi><mo>;</mo></mrow></math>]]></maths>每个子集合k<sub>i</sub>，i∈{1，2......p}中的语义标签具有相似的语义信息；(3)、“标签-帧序列”样本训练3.1)、以语义标签tag<sub>h</sub>∈K，h＝1，2，…，n为依据，在标定的视频资源集{v<sub>dd</sub>}中收集cnt个具有较高代表性的视频资源{v<sub>o-1</sub>，v<sub>o-2</sub>......v<sub>o-cnt</sub>}，每个视频资源提取出一个长度为m的关键帧序列KeyFS<sub>j</sub>，组成一个长度为z＝m*cnt的帧序列KeyFS<sub>init</sub>：<maths num="0005"><![CDATA[<math><mrow><msub><mi>FS</mi><mi>init</mi></msub><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>cnt</mi></munderover><msub><mi>KeyFS</mi><mi>j</mi></msub><mo>=</mo><mo>{</mo><msub><mi>FS</mi><mn>1</mn></msub><mo>,</mo><msub><mi>FS</mi><mn>2</mn></msub><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><msub><mi>FS</mi><mi>z</mi></msub><mo>}</mo></mrow></math>]]></maths>3.2)、以两个关键帧之间的相似度距离值为基础，对帧序列FS<sub>init</sub>进行聚类分析，得到若干组，并选取关键帧个数最多的一组作为语义标签tag<sub>h</sub>的帧序列：<maths num="0006"><![CDATA[<math><mrow><msub><mi>FS</mi><msub><mi>tag</mi><mi>h</mi></msub></msub><mo>=</mo><mo>{</mo><msub><mi>FS</mi><mrow><msub><mi>tag</mi><mi>h</mi></msub><mo>_</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>FS</mi><mrow><mi>t</mi><msub><mi>ag</mi><mi>h</mi></msub><mo>_</mo><mn>2</mn></mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>FS</mi><mrow><msub><mi>tag</mi><mi>h</mi></msub><mo>_</mo><mi>fcnt</mi></mrow></msub><mo>}</mo><mo>,</mo></mrow></math>]]></maths>fcnt为关键帧个数；3.3)、由上得到一个“标签-帧序列”<img file="FDA0000123346000000021.GIF" wi="301" he="64" />重复步骤3.1)、3.2)得到语义标签集合K中每个语义标签对应的“标签-帧序列”构成的样本集合<maths num="0007"><![CDATA[<math><mrow><mo>{</mo><msub><mi>tag</mi><mi>h</mi></msub><mo>-</mo><msub><mi>FS</mi><msub><mi>tag</mi><mi>h</mi></msub></msub><mo>;</mo><mi>h</mi><mo>=</mo><mn>1,2</mn><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>.</mo><mi>n</mi><mo>}</mo><mo>;</mo></mrow></math>]]></maths>(4)、在待标定视频资源集{v<sub>new</sub>}中，选取一个待标定视频资源v<sub>w</sub>，并提取关键帧序列KeyFS<sub>w</sub>；(5)、取语义标签tag<sub>x</sub>，x＝1，2......n中对应的帧序列<img file="FDA0000123346000000023.GIF" wi="151" he="61" />计算帧序列<img file="FDA0000123346000000024.GIF" wi="122" he="61" />与关键帧序列KeyFS<sub>w</sub>的相似度值，得到α<sub>w-x</sub>，取值范围[0～1]；(6)、判定语义标签tag<sub>x</sub>是否标定给视频资源v<sub>w</sub>：6.1)、如果存在已标定给视频资源v<sub>w</sub>的语义标签tag<sub>y</sub>，且tag<sub>y</sub>、tag<sub>x</sub>∈k<sub>i</sub>，tag<sub>y</sub>对应的帧序列<img file="FDA0000123346000000025.GIF" wi="151" he="66" />帧序列<img file="FDA0000123346000000026.GIF" wi="109" he="61" />与关键帧序列KeyFS<sub>w</sub>的相似度值为α<sub>w-y</sub>，则：A.当<maths num="0008"><![CDATA[<math><mrow><msub><mi>α</mi><mrow><mi>w</mi><mo>-</mo><mi>x</mi></mrow></msub><mo>&GreaterEqual;</mo><msub><mi>α</mi><mi>std</mi></msub><mo>+</mo><mfrac><mrow><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>α</mi><mrow><mi>w</mi><mo>-</mo><mi>y</mi></mrow></msub><mo>)</mo></mrow><mo>×</mo><mi>cos</mi><mrow><mo>(</mo><msub><mi>α</mi><mrow><mi>w</mi><mo>-</mo><mi>y</mi></mrow></msub><mi>π</mi><mo>/</mo><mn>2</mn><mo>)</mo></mrow></mrow><mn>2</mn></mfrac></mrow></math>]]></maths>时，语义标签tag<sub>x</sub>标定给视频资源v<sub>w</sub>；B.当<maths num="0009"><![CDATA[<math><mrow><msub><mi>α</mi><mrow><mi>w</mi><mo>-</mo><mi>x</mi></mrow></msub><mo><</mo><msub><mi>α</mi><mi>std</mi></msub><mo>+</mo><mfrac><mrow><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>α</mi><mrow><mi>w</mi><mo>-</mo><mi>y</mi></mrow></msub><mo>)</mo></mrow><mo>×</mo><mi>cos</mi><mrow><mo>(</mo><msub><mi>α</mi><mrow><mi>w</mi><mo>-</mo><mi>y</mi></mrow></msub><mi>π</mi><mo>/</mo><mn>2</mn><mo>)</mo></mrow></mrow><mn>2</mn></mfrac></mrow></math>]]></maths>时，语义标签tag<sub>x</sub>不标定给资源v<sub>w</sub>6.2)、如果不存在已标定给资源v<sub>w</sub>的tag<sub>y</sub>∈k<sub>i</sub>且tag<sub>x</sub>∈k<sub>i</sub>，则：A.当α<sub>w-x</sub>≥α<sub>std</sub>时，语义标签tag<sub>x</sub>标定给资源v<sub>w</sub>B.当α<sub>w-x</sub>＜α<sub>std</sub>时，语义标签tag<sub>x</sub>不标定给资源v<sub>w</sub>；(7)、重复步骤(5)、(6)，遍历语义标签集合K中所有语义标签，判定其是否标定给视频资源v<sub>w</sub>，最终形成视频资源v<sub>w</sub>的语义标签{tag<sub>w_1</sub>，tag<sub>w_2</sub>……}；(8)、重复步骤(4)～(7)，遍历待标定视频资源集{v<sub>new</sub>}中的所有待标定视频资源并进行标定。
地址	611731 四川省成都市高新区（西区）西源大道2006号