发明名称 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
摘要 本发明公开了一种基于多模态信息融合与图聚类的跨媒体话题检测方法及其装置,其中该方法包括:步骤一,进行文本信息、视频内容预处理;步骤二,进行文本融合及高层特征提取,获取文本信息相似度;步骤三,进行视频相似片段检测,获取视觉信息相似度;步骤四,根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度;步骤五,根据最终数据相似度进行图融合、图聚类,完成话题检测。该方法有效避免了对时间轴的硬量化带来的过分割与过生成的问题以及现有话题检测方法无法移植到来自不同媒体源的多模态数据的话题检测问题。
申请公布号 CN103995804B 申请公布日期 2017.02.01
申请号 CN201410203087.2 申请日期 2014.05.14
申请人 中国科学院计算技术研究所 发明人 黄庆明;张艳雁;褚令洋;李国荣;王树徽;张维刚
分类号 G06F17/27(2006.01)I;G06K9/00(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 祁建国;梁挥
主权项 一种基于多模态信息融合与图聚类的跨媒体话题检测方法,其特征在于,包括:步骤一,进行文本信息、视频内容预处理;步骤二,进行文本融合及高层特征提取,获取文本信息相似度;步骤三,进行视频相似片段检测,获取视觉信息相似度;步骤四,根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度;步骤五,根据最终数据相似度进行图融合、图聚类,完成话题检测;所述步骤二中,包括:利用余弦距离计算两个数据点间的文本信息相似度,公式如下:<maths num="0001"><math><![CDATA[<mrow><msubsup><mi>Sim</mi><mrow><mi>i</mi><mi>j</mi></mrow><mi>T</mi></msubsup><mo>=</mo><mi>cos</mi><mi> </mi><mi>i</mi><mi>n</mi><mi>e</mi><mrow><mo>(</mo><msubsup><mi>d</mi><mi>i</mi><mi>T</mi></msubsup><mo>,</mo><msubsup><mi>d</mi><mi>j</mi><mi>T</mi></msubsup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001116544140000011.GIF" wi="460" he="71" /></maths>其中:Sim<sub>ij</sub><sup>T</sup>表示第i个数据和第j个数据在文本层面的文本信息相似度;<img file="FDA0001116544140000012.GIF" wi="61" he="63" />表示第i个数据的文本高层特征;<img file="FDA0001116544140000013.GIF" wi="59" he="73" />表示第j个数据的文本高层特征;所述步骤三中,包括:将视频信息相似度定义为视频重复关键帧的数目;<maths num="0002"><math><![CDATA[<mrow><msubsup><mi>Sim</mi><mrow><mi>i</mi><mi>j</mi></mrow><mi>V</mi></msubsup><mo>=</mo><mo>#</mo><mi>N</mi><mi>D</mi><mi>K</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001116544140000014.GIF" wi="389" he="70" /></maths>其中:Sim<sub>ij</sub><sup>V</sup>表示第i个数据与第j个数据在视觉信息层面的视觉信息相似度;#NDK(i,j)表示第i个数据的视频与第j个数据的视频重复关键帧的数目;所述步骤四中,包括:采用Jaccard相似度计算两个数据点k近邻的数据集的相似度作为两个节点的实际相似度:<maths num="0003"><math><![CDATA[<mrow><msubsup><mi>J</mi><mrow><mi>i</mi><mi>j</mi></mrow><mi>T</mi></msubsup><mo>=</mo><mfrac><mrow><mo>|</mo><msubsup><mi>N</mi><mi>i</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>&cap;</mo><msubsup><mi>N</mi><mi>j</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><msubsup><mi>N</mi><mi>i</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>&cup;</mo><msubsup><mi>N</mi><mi>j</mi><mi>T</mi></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0001116544140000015.GIF" wi="446" he="170" /></maths><maths num="0004"><math><![CDATA[<mrow><msubsup><mi>J</mi><mrow><mi>i</mi><mi>j</mi></mrow><mi>V</mi></msubsup><mo>=</mo><mfrac><mrow><mo>|</mo><msubsup><mi>N</mi><mi>i</mi><mi>V</mi></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>&cap;</mo><msubsup><mi>N</mi><mi>j</mi><mi>V</mi></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><msubsup><mi>N</mi><mi>i</mi><mi>V</mi></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>&cup;</mo><msubsup><mi>N</mi><mi>j</mi><mi>V</mi></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0001116544140000016.GIF" wi="446" he="171" /></maths>其中:N<sub>i</sub><sup>T</sup>(k)表示第i个节点文本信息相似度排名最高的k个数据点集合,不包含i节点本身;N<sub>j</sub><sup>T</sup>(k)表示第j个节点文本信息相似度排名最高的k个数据点集合,不包含j节点本身;N<sub>i</sub><sup>V</sup>(k)表示第i个节点视觉信息相似度排名最高的k个数据点集合,不包含i节点本身;N<sub>j</sub><sup>V</sup>(k)表示第j个节点视觉信息相似度排名最高的k个数据点集合,不包含j节点本身;J<sub>ij</sub><sup>T</sup>表示第i个节点和第j个节点在文本信息层面的Jaccard相似度;J<sub>ij</sub><sup>V</sup>表示第i个节点和第j个节点在视觉信息层面的Jaccard相似度;所述步骤四中,包括:对数据进行时序约束:<img file="FDA0001116544140000021.GIF" wi="309" he="133" />其中:β表示衰减系数,α<sub>ij</sub>表示第i个数据与第j个数据时间轴上的相似度衰减关系,t<sub>i</sub>、t<sub>j</sub>分别表示第i个数据、第j个数据的上传时间,Δ为量化系数,表示在Δ时间段内,数据间的相似度不存在衰减,相似度为实际相似度。
地址 100190 北京市海淀区中关村科学院南路6号