主权项 |
一种视频相似度的计算方法,其特征在于,具体步骤包括:(1)提取视频A初步文本特征①对所述视频A的简介进行中文分词;②计算步骤①获取的每个分词的频率,计算公式如式(Ⅰ)所示:<maths num="0001"><math><![CDATA[<mrow><msub><mi>β</mi><mrow><mi>a</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000894042730000011.GIF" wi="380" he="135" /></maths> (Ⅰ)式(Ⅰ)中,β<sub>a,d</sub>是指分词a在视频A的简介d中的频率,count(a,d)是指分词a在视频A的简介d中出现的次数,count(d)是指视频A的简介d中所有分词的数量;③计算分词a在整个数据库中所有视频的简介C中出现的逆文档频率β<sub>a,C</sub>,计算公式如式(Ⅱ)所示:<maths num="0002"><math><![CDATA[<mrow><msub><mi>β</mi><mrow><mi>a</mi><mo>,</mo><mi>C</mi></mrow></msub><mo>=</mo><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mfrac><mi>n</mi><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>C</mi><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000894042730000012.GIF" wi="486" he="125" /></maths> (Ⅱ);式(Ⅱ)中,n是指整个数据库中所有视频的简介C的总数,count(a,C)是指整个数据库中所有视频的简介C中出现分词a的视频的简介的数量;④计算分词a在所述视频A的简介中的权重β<sub>α</sub>,计算公式如式(Ⅲ)所示:β<sub>α</sub>=β<sub>α,d</sub>*β<sub>α,C</sub> (Ⅲ)⑤计算视频A的初步文本特征:β<sub>A</sub>={a:β<sub>a</sub>,b:β<sub>b</sub>,.........};其中,{a,b,.........}是指所述视频A的所有分词,{β<sub>a</sub>,β<sub>b</sub>,.........}是指所述视频A的所有分词对应的权重;(2)采用LDA主题模型提取视频A的隐性特征⑥对所述视频A的简介进行中文分词;⑦将步骤⑥获取的所有分词放置在语料库;⑧将步骤⑦获取的所述语料库输入所述LDA主题模型,指定主题数目,输出:视频A在每个指定主题上的相关度V<sub>tv</sub>及所有分词在每个指定主题上的相关度V<sub>at</sub>;⑨计算分词a在视频A的简介中的权重α<sub>a</sub>,计算公式如式(Ⅳ)所示:α<sub>a</sub>=V<sub>at</sub>*V<sub>tv</sub> (Ⅳ)⑩计算视频A的隐性特征为α<sub>A</sub>={a:α<sub>a</sub>,b:α<sub>b</sub>,.........},其中,{a,b,.........}是指所述视频A的所有分词,{α<sub>a</sub>,α<sub>b</sub>,.........}是指所述视频A的所有分词对应的权重;(3)计算视频A的文本特征v<sub>A</sub>,计算公式如式(Ⅴ)所示:v<sub>A</sub>=λα<sub>A</sub>*(1‑λ)β<sub>A</sub> (Ⅴ)式(Ⅴ)中,λ为相似视频转化率最大时的取值;(4)通过步骤(1)‑(3)计算视频的B文本特征v<sub>B</sub>,并计算视频A、视频B之间的相似度,计算公式如式(Ⅵ)所示:<maths num="0003"><math><![CDATA[<mrow><mi>s</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>A</mi></msub><mo>,</mo><msub><mi>v</mi><mi>B</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><mover><msub><mi>v</mi><mi>A</mi></msub><mo>→</mo></mover><mo>,</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>→</mo></mover><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mover><msub><mi>v</mi><mi>A</mi></msub><mo>→</mo></mover><mo>·</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>→</mo></mover></mrow><mrow><mo>|</mo><mover><msub><mi>v</mi><mi>A</mi></msub><mo>→</mo></mover><mo>|</mo><mo>*</mo><mo>|</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>→</mo></mover><mo>|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0000894042730000021.GIF" wi="749" he="183" /></maths> (Ⅵ)。 |