发明名称 基于社群潜在主题挖掘的自动图像标注的方法
摘要 本发明公开了一种基于社群潜在主题挖掘的自动图像标注的方法。包括如下步骤:1)采用隐狄利克雷分配模型对单个社群里的隐含主题进行挖掘;2)通过对社群潜在主题分析得到图像标签和隐含主题的概率分布后,删除社群图像标签和隐含主题概率小于设定值k的图像标签来对社群图像标签进行“去噪”过滤;3)通过相似图像标签传播产生待标注图像的图像候选标注标签;4)根据图像候选标注标签与图像的隐含主题之间相关性对图像候选标注标签进行优化;5)通过多社群信息融合得到图像最终标注结果。本发明充分利用了社会共享网络中图像所在不同社群的信息以及社群潜在主题信息来对图像进行标注,比传统标注方法产生的标注结果更准确。
申请公布号 CN101685464B 申请公布日期 2011.08.24
申请号 CN200910099916.6 申请日期 2009.06.18
申请人 浙江大学 发明人 吴飞;邵健;庄越挺;陈烨;朱科
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高
主权项 1.一种基于社群潜在主题挖掘的自动图像标注的方法,其特征在于包括如下步骤:1)采用隐狄利克雷分配模型对单个社群里的隐含主题进行挖掘;2)通过对社群潜在主题分析得到图像标签和隐含主题的概率分布后,删除社群图像标签和隐含主题概率小于设定值k的图像标签来对社群图像标签进行“去噪”过滤;3)通过相似图像标签传播产生待标注图像的图像候选标注标签;4)根据图像候选标注标签与图像的隐含主题之间相关性对图像候选标注标签进行优化;5)通过多社群信息融合得到图像最终标注结果;所述的通过相似图像标签传播产生待标注图像的图像候选标注标签的步骤:对于社群中一张待标注图像I<sub>u</sub>,待标注图像I<sub>u</sub>和图像标签w之间的概率从以下的公式计算得到:<img file="FSB00000523850500011.GIF" wi="884" he="78" />其中P(w|J)表示训练图像J中图像标签w出现次数,P(I<sub>u</sub>|J)表示待标注图像I<sub>u</sub>和训练图像J之间的视觉相似性,T为社群主题总数,选取与待标注图像I<sub>u</sub>视觉相似性最高的10幅训练图像J所对应的图像标签w作为待标注图像Iu的候选标注标签,即P(w|I<sub>u</sub>)值最大的10个图像标签w作为待标注图像I<sub>u</sub>的图像候选标注标签;所述的根据图像候选标注标签与图像的隐含主题之间相关性对图像候选标注标签进行优化的步骤:1)通过计算所有隐含主题中两个图像候选标注标签之间概率乘积的和得到图像候选标注标签w<sub>k</sub>和w<sub>l</sub>之间的隐含主题相似性,计算公式为:<img file="FSB00000523850500012.GIF" wi="917" he="117" />其中ф表示图像标签和隐含主题的概率分布,T为社群主题总数;2)通过计算图像候选标注标签和其它图像候选标注标签之间的隐含主题相关性之和得到图像候选标注标签w<sub>i</sub>和待标注图像I<sub>u</sub>的隐含主题的相关性,计算公式为:<img file="FSB00000523850500013.GIF" wi="400" he="84" />其中P(w<sub>j</sub>|w<sub>i</sub>)表示图像候选标注标签w<sub>j</sub>和w<sub>i</sub>之间的隐含主题相似性;3)重新计算图像候选标注标签w<sub>i</sub>和待标注图像I<sub>u</sub>的概率,计算公式为:P′(w<sub>i</sub>|I<sub>u</sub>)=P(w<sub>i</sub>|I<sub>u</sub>)*R(w<sub>i</sub>,I<sub>u</sub>),其中P(w<sub>i</sub>|I<sub>u</sub>)表示待标注图像I<sub>u</sub>和图像标签w<sub>i</sub>之间的概率,R(w<sub>i</sub>,I<sub>u</sub>)表示图像候选标注标签w<sub>i</sub>和待标注图像I<sub>u</sub>的隐含主题的相关性;所述的通过多社群信息融合对图像进行最终的标注的步骤:1)通过从每个社群的标题中选取在社群里出现最频繁的图像标签来代表社群的主题,然后通过这个图像标签就在WordNet的“entity”语义树中找到代表该社群的节点,构成各个社群之间的层次相关性;2)通过各个社群之间的层次相关性,对各个社群从下到上依次通过融合对图像进行最终的标注,对于含有共同祖先节点的各个社群之间通过对各子节点社群的标注信息求平均值得到一个新的父节点,删除子节点,达到融合的目的;3)通过选取图像候选标注标签前5个值得到待标注图像的最终标注结果。
地址 310027 浙江省杭州市浙大路38号