一种视频相似度的计算方法,申请号CN201511008475.6-传众专利搜索

发明名称	一种视频相似度的计算方法
摘要	本发明涉及一种视频相似度的计算方法，具体包括：(1)提取视频A初步文本特征；(2)采用LDA主题模型提取视频A的隐性特征；(3)计算视频A的文本特征v<sub>A</sub>，通过步骤(1)-(3)计算视频的B文本特征v<sub>B</sub>，并计算视频A、视频B之间的相似度。本发明通过对用户的历史数据分析构建用户特征画像，为了达到高效的目的，用户特征画像的建立是通过离线处理装置事先算好的，因此，可周期性获取用户特征，最后将用户特征画像融入到相关视频推荐中，从而达到了个性化推荐的目的。本发明根据用户的评论对传统的相似视频计算方法进行修正，在提高相关视频转化率及提升用户体验的同时，也给视频供应商带来了巨大的经济效益。
申请公布号	CN105654125A	申请公布日期	2016.06.08
申请号	CN201511008475.6	申请日期	2015.12.29
申请人	山东大学	发明人	邢建平;田欣玉;宋宪明;刘绪
分类号	G06K9/62(2006.01)I;G06F17/30(2006.01)I	主分类号	G06K9/62(2006.01)I
代理机构	济南金迪知识产权代理有限公司 37219	代理人	杨树云
主权项	一种视频相似度的计算方法，其特征在于，具体步骤包括：(1)提取视频A初步文本特征①对所述视频A的简介进行中文分词；②计算步骤①获取的每个分词的频率，计算公式如式(Ⅰ)所示：<maths num="0001"><math><![CDATA[<mrow><msub><mi>β</mi><mrow><mi>a</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000894042730000011.GIF" wi="380" he="135" /></maths> (Ⅰ)式(Ⅰ)中，β<sub>a,d</sub>是指分词a在视频A的简介d中的频率，count(a,d)是指分词a在视频A的简介d中出现的次数，count(d)是指视频A的简介d中所有分词的数量；③计算分词a在整个数据库中所有视频的简介C中出现的逆文档频率β<sub>a,C</sub>，计算公式如式(Ⅱ)所示：<maths num="0002"><math><![CDATA[<mrow><msub><mi>β</mi><mrow><mi>a</mi><mo>,</mo><mi>C</mi></mrow></msub><mo>=</mo><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mfrac><mi>n</mi><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>C</mi><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000894042730000012.GIF" wi="486" he="125" /></maths> (Ⅱ)；式(Ⅱ)中，n是指整个数据库中所有视频的简介C的总数，count(a,C)是指整个数据库中所有视频的简介C中出现分词a的视频的简介的数量；④计算分词a在所述视频A的简介中的权重β<sub>α</sub>，计算公式如式(Ⅲ)所示：β<sub>α</sub>＝β<sub>α,d</sub>β<sub>α,C</sub> (Ⅲ)⑤计算视频A的初步文本特征：β<sub>A</sub>＝{a:β<sub>a</sub>,b:β<sub>b</sub>,.........}；其中，{a,b,.........}是指所述视频A的所有分词，{β<sub>a</sub>,β<sub>b</sub>,.........}是指所述视频A的所有分词对应的权重；(2)采用LDA主题模型提取视频A的隐性特征⑥对所述视频A的简介进行中文分词；⑦将步骤⑥获取的所有分词放置在语料库；⑧将步骤⑦获取的所述语料库输入所述LDA主题模型，指定主题数目，输出：视频A在每个指定主题上的相关度V<sub>tv</sub>及所有分词在每个指定主题上的相关度V<sub>at</sub>；⑨计算分词a在视频A的简介中的权重α<sub>a</sub>，计算公式如式(Ⅳ)所示：α<sub>a</sub>＝V<sub>at</sub>V<sub>tv</sub> (Ⅳ)⑩计算视频A的隐性特征为α<sub>A</sub>＝{a:α<sub>a</sub>,b:α<sub>b</sub>,.........}，其中，{a,b,.........}是指所述视频A的所有分词，{α<sub>a</sub>,α<sub>b</sub>,.........}是指所述视频A的所有分词对应的权重；(3)计算视频A的文本特征v<sub>A</sub>，计算公式如式(Ⅴ)所示：v<sub>A</sub>＝λα<sub>A</sub>(1‑λ)β<sub>A</sub> (Ⅴ)式(Ⅴ)中，λ为相似视频转化率最大时的取值；(4)通过步骤(1)‑(3)计算视频的B文本特征v<sub>B</sub>，并计算视频A、视频B之间的相似度，计算公式如式(Ⅵ)所示：<maths num="0003"><math><![CDATA[<mrow><mi>s</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>A</mi></msub><mo>,</mo><msub><mi>v</mi><mi>B</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><mover><msub><mi>v</mi><mi>A</mi></msub><mo>&RightArrow;</mo></mover><mo>,</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>&RightArrow;</mo></mover><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mover><msub><mi>v</mi><mi>A</mi></msub><mo>&RightArrow;</mo></mover><mo>·</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>&RightArrow;</mo></mover></mrow><mrow><mo>\|</mo><mover><msub><mi>v</mi><mi>A</mi></msub><mo>&RightArrow;</mo></mover><mo>\|</mo><mo></mo><mo>\|</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>&RightArrow;</mo></mover><mo>\|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0000894042730000021.GIF" wi="749" he="183" /></maths> (Ⅵ)。
地址	250199 山东省济南市历城区山大南路27号