发明名称 网络视频话题检测的方法及其系统
摘要 本发明一种网络视频话题检测的方法及系统,方法包括:步骤1,将视频的标签词表示为时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;步骤2,将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件;步骤3,计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;步骤4,将事件发展轨迹图分割为多个连通子图;步骤5,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测。本发明能够从网络中检测出视频话题。
申请公布号 CN101887459B 申请公布日期 2012.07.11
申请号 CN201010221077.3 申请日期 2010.06.28
申请人 中国科学院计算技术研究所 发明人 曹娟;张勇东;李锦涛
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 祁建国;梁挥
主权项 1.一种网络视频话题检测的方法,其特征在于,包括:步骤1,将视频的标签词通过统计每个时间单元内,包含该标签词的视频数,从而得到该标签词在整个时间轴上的词频变化轨迹,根据该词频变化轨迹提取每个时间单元内的显著词;步骤2,将每个时间单元内的显著词表示为所述时间单元内上传的所有视频的倒排索引,并对所述显著词进行聚类,一个类为所述时间单元的一个事件,包含所述类中预设数量的显著词的视频为属于所述事件的视频;步骤3,计算各个事件之间相似度,建立事件之间的连接,形成事件发展轨迹图,事件发展轨迹图中的点为事件,按两个事件之间的相似度连接点生成边;步骤4,将事件发展轨迹图分割为多个连通子图;步骤5,按预设标准从各个连通子图中查找最优路径,每条最优路径对应一个话题的轨迹,进而完成话题的检测;显著词的定义为,如果在时间单元T,标签词w的词频变化轨迹达到峰值或满足预先定义的阈值,则标签词w为时间单元T的显著词;所述步骤3进一步为,步骤61,属于事件对应的类的所有显著词组成所述事件的显著词向量,显著词向量的每一维的权重为包含所述维对应显著词的视频个数,所述事件对应的时间单元内包含n个以上所述显著词向量中的显著词的视频组成所述事件的视频向量,n为预设值,视频向量的每一维的权重为所述维对应视频的被观看次数;步骤62,计算事件的视频向量的平均值,以所述平均值为所述事件的权重;步骤63,设置计算时间窗口,根据事件的显著词向量计算所述计算时间窗口内时间单元对应的事件之间的余弦距离,以所述余弦距离为所述事件之间的相似度;步骤64,以事件为事件发展轨迹图中的点,点的权重为对应的事件的权重,将对应事件的相似度大于预设值的点连接生成边;所述步骤5进一步为,步骤71,对于每个连通子图,采用如下公式度量连通子图上每条路径的能量;<maths num="0001"><![CDATA[<math><mrow><mi>F</mi><mrow><mo>(</mo><msub><mi>E</mi><mi>T</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mn>10</mn><mo>&times;</mo><msub><mi>E</mi><mi>T</mi></msub></mrow><mrow><mn>1</mn><mo>+</mo><mn>10</mn><mo>&times;</mo><msub><mi>E</mi><mi>T</mi></msub></mrow></mfrac></mrow></math>]]></maths>E<sub>T</sub><sup>(t)</sup>=α×weight(T<sup>(t)</sup>)-β<maths num="0002"><![CDATA[<math><mrow><mi>weight</mi><mrow><mo>(</mo><mi>T</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mrow><msub><mi>&epsiv;</mi><mi>t</mi></msub><mo>&Element;</mo><mi>T</mi></mrow></munder><mi>weight</mi><mrow><mo>(</mo><msub><mi>&epsiv;</mi><mi>t</mi></msub><mo>)</mo></mrow><mo>+</mo><munder><mi>&Sigma;</mi><mrow><mo>{</mo><msub><mi>&epsiv;</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>&epsiv;</mi><mi>t</mi></msub><mo>}</mo><mo>&Element;</mo><mi>T</mi></mrow></munder><mi>Sim</mi><mrow><mo>(</mo><msub><mi>&epsiv;</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>&epsiv;</mi><mi>t</mi></msub><mo>)</mo></mrow></mrow></math>]]></maths>能量函数F是一个sigmod函数,值在0到1之间,单调递增;E<sub>T</sub>是路径的初始能量值,α为一个能量转化因子,β为一个能量衰退因子,<img file="FSB00000771089700023.GIF" wi="72" he="56" />是指路径在t时刻的能量值,weight(T)是路径T的能量值,ε是指属于该路径的一个事件,Sim表示相似度;步骤72,根据计算的路径能量值,在连通子图中选择能量最大的路径作为话题的轨迹,进而完成话题检测,其中能量最大的路径即最优路径。
地址 100080 北京市海淀区中关村科学院南路6号