发明名称 一种视频相似度的计算方法
摘要 本发明涉及一种视频相似度的计算方法,具体包括:(1)提取视频A初步文本特征;(2)采用LDA主题模型提取视频A的隐性特征;(3)计算视频A的文本特征v<sub>A</sub>,通过步骤(1)-(3)计算视频的B文本特征v<sub>B</sub>,并计算视频A、视频B之间的相似度。本发明通过对用户的历史数据分析构建用户特征画像,为了达到高效的目的,用户特征画像的建立是通过离线处理装置事先算好的,因此,可周期性获取用户特征,最后将用户特征画像融入到相关视频推荐中,从而达到了个性化推荐的目的。本发明根据用户的评论对传统的相似视频计算方法进行修正,在提高相关视频转化率及提升用户体验的同时,也给视频供应商带来了巨大的经济效益。
申请公布号 CN105654125A 申请公布日期 2016.06.08
申请号 CN201511008475.6 申请日期 2015.12.29
申请人 山东大学 发明人 邢建平;田欣玉;宋宪明;刘绪
分类号 G06K9/62(2006.01)I;G06F17/30(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 济南金迪知识产权代理有限公司 37219 代理人 杨树云
主权项 一种视频相似度的计算方法,其特征在于,具体步骤包括:(1)提取视频A初步文本特征①对所述视频A的简介进行中文分词;②计算步骤①获取的每个分词的频率,计算公式如式(Ⅰ)所示:<maths num="0001"><math><![CDATA[<mrow><msub><mi>&beta;</mi><mrow><mi>a</mi><mo>,</mo><mi>d</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000894042730000011.GIF" wi="380" he="135" /></maths>  (Ⅰ)式(Ⅰ)中,β<sub>a,d</sub>是指分词a在视频A的简介d中的频率,count(a,d)是指分词a在视频A的简介d中出现的次数,count(d)是指视频A的简介d中所有分词的数量;③计算分词a在整个数据库中所有视频的简介C中出现的逆文档频率β<sub>a,C</sub>,计算公式如式(Ⅱ)所示:<maths num="0002"><math><![CDATA[<mrow><msub><mi>&beta;</mi><mrow><mi>a</mi><mo>,</mo><mi>C</mi></mrow></msub><mo>=</mo><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mfrac><mi>n</mi><mrow><mi>c</mi><mi>o</mi><mi>u</mi><mi>n</mi><mi>t</mi><mrow><mo>(</mo><mi>a</mi><mo>,</mo><mi>C</mi><mo>)</mo></mrow></mrow></mfrac><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000894042730000012.GIF" wi="486" he="125" /></maths>  (Ⅱ);式(Ⅱ)中,n是指整个数据库中所有视频的简介C的总数,count(a,C)是指整个数据库中所有视频的简介C中出现分词a的视频的简介的数量;④计算分词a在所述视频A的简介中的权重β<sub>α</sub>,计算公式如式(Ⅲ)所示:β<sub>α</sub>=β<sub>α,d</sub>*β<sub>α,C</sub>  (Ⅲ)⑤计算视频A的初步文本特征:β<sub>A</sub>={a:β<sub>a</sub>,b:β<sub>b</sub>,.........};其中,{a,b,.........}是指所述视频A的所有分词,{β<sub>a</sub>,β<sub>b</sub>,.........}是指所述视频A的所有分词对应的权重;(2)采用LDA主题模型提取视频A的隐性特征⑥对所述视频A的简介进行中文分词;⑦将步骤⑥获取的所有分词放置在语料库;⑧将步骤⑦获取的所述语料库输入所述LDA主题模型,指定主题数目,输出:视频A在每个指定主题上的相关度V<sub>tv</sub>及所有分词在每个指定主题上的相关度V<sub>at</sub>;⑨计算分词a在视频A的简介中的权重α<sub>a</sub>,计算公式如式(Ⅳ)所示:α<sub>a</sub>=V<sub>at</sub>*V<sub>tv</sub>  (Ⅳ)⑩计算视频A的隐性特征为α<sub>A</sub>={a:α<sub>a</sub>,b:α<sub>b</sub>,.........},其中,{a,b,.........}是指所述视频A的所有分词,{α<sub>a</sub>,α<sub>b</sub>,.........}是指所述视频A的所有分词对应的权重;(3)计算视频A的文本特征v<sub>A</sub>,计算公式如式(Ⅴ)所示:v<sub>A</sub>=λα<sub>A</sub>*(1‑λ)β<sub>A</sub>  (Ⅴ)式(Ⅴ)中,λ为相似视频转化率最大时的取值;(4)通过步骤(1)‑(3)计算视频的B文本特征v<sub>B</sub>,并计算视频A、视频B之间的相似度,计算公式如式(Ⅵ)所示:<maths num="0003"><math><![CDATA[<mrow><mi>s</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>A</mi></msub><mo>,</mo><msub><mi>v</mi><mi>B</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><mover><msub><mi>v</mi><mi>A</mi></msub><mo>&RightArrow;</mo></mover><mo>,</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>&RightArrow;</mo></mover><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mover><msub><mi>v</mi><mi>A</mi></msub><mo>&RightArrow;</mo></mover><mo>&CenterDot;</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>&RightArrow;</mo></mover></mrow><mrow><mo>|</mo><mover><msub><mi>v</mi><mi>A</mi></msub><mo>&RightArrow;</mo></mover><mo>|</mo><mo>*</mo><mo>|</mo><mover><msub><mi>v</mi><mi>B</mi></msub><mo>&RightArrow;</mo></mover><mo>|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0000894042730000021.GIF" wi="749" he="183" /></maths>  (Ⅵ)。
地址 250199 山东省济南市历城区山大南路27号