发明名称 一种基于词间相关性的图像自动标注方法
摘要 本发明公开了一种基于词间相关性的图像自动标注方法,训练集合T包含l个图像,所述训练集合T的每个图像标注有n个标注词,且有相应的视觉词元,待标注图像为I,该方法包括:根据公式<img file="DDA0000454408120000011.GIF" wi="272" he="147" />计算每一个标注词w的语义矢量,将标注词w表示为矢量形式w=<v<sub>1</sub>,v<sub>2</sub>,…,v<sub>m</sub>>,其中,c<sub>i</sub>为上下文关联词,共有m个上下文关联词;根据公式<img file="DDA0000454408120000012.GIF" wi="470" he="155" />计算标注词之间的语义相似度,其中||·||为向量模计算;根据公式<img file="DDA0000454408120000013.GIF" wi="694" he="145" />计算p(A),其中A为标注词组{w<sub>1</sub>,w<sub>2</sub>,…w<sub>n</sub>},n为标注词组的个数;根据公式<img file="DDA0000454408120000014.GIF" wi="728" he="147" />计算条件概率p(I/w<sub>i</sub>);根据<img file="DDA0000454408120000015.GIF" wi="444" he="123" />计算p(I/A);由公式A=arg max<sub>A</sub>p(I/A)p(A)计算待标注图像I的标注词组A。
申请公布号 CN103714178B 申请公布日期 2017.01.25
申请号 CN201410008553.1 申请日期 2014.01.08
申请人 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 发明人 安震
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京德琦知识产权代理有限公司 11018 代理人 郑红娟;宋志强
主权项 一种基于词间相关性的图像自动标注方法,其特征在于,训练集合T包含l个图像,所述l个图像构成图像集合P=[p<sub>1</sub> p<sub>2</sub> … p<sub>l</sub>];所述训练集合T的每个图像标注有n个标注词,训练集合T中所有标注词构成标注词集合W=[w<sub>1</sub> w<sub>2</sub> … w<sub>s</sub>];训练集合T的每个图像有相应的视觉词元,训练集合T中所有视觉词元构成视觉词元集合B=[b<sub>1</sub> b<sub>2</sub> … b<sub>y</sub>],待标注图像为I,该方法包括:A.根据公式<img file="FDA0001086037920000011.GIF" wi="259" he="135" />计算训练集合T中每一个标注词w的语义矢量,将标注词w表示为矢量形式w=&lt;v<sub>1</sub>,v<sub>2</sub>,…,v<sub>m</sub>&gt;,其中,c<sub>i</sub>为上下文关联词,共有m个上下文关联词,p(c<sub>i</sub>)为上下文关联词c<sub>i</sub>的整体分布概率,p(c<sub>i</sub>/w)表示上下文关联词c<sub>i</sub>和标注词w在训练集合T中的共现次数与标注词w在训练集合T中出现的总次数的比值,即<img file="FDA0001086037920000012.GIF" wi="486" he="133" />其中,所述上下文关联词为训练集合T中的标注词;B.根据公式<img file="FDA0001086037920000013.GIF" wi="472" he="142" />计算标注词之间的语义相似度,其中||·||为向量模计算,w<sub>i</sub>·w<sub>j</sub>为向量点积运算;C.根据公式<img file="FDA0001086037920000014.GIF" wi="684" he="140" />计算p(A),其中A为标注词组{w<sub>1</sub>,w<sub>2</sub>,…w<sub>n</sub>},n为标注词组的个数;D.根据公式<img file="FDA0001086037920000015.GIF" wi="726" he="127" />计算条件概率p(I/w<sub>i</sub>),其中,p(w<sub>i</sub>)为标注词w<sub>i</sub>在训练集合T中出现的次数与训练集合T所有标注词出现总次数的比值,即<img file="FDA0001086037920000016.GIF" wi="404" he="158" />p(w<sub>i</sub>,b<sub>1</sub>,…,b<sub>n</sub>)的计算方法为:<img file="FDA0001086037920000021.GIF" wi="1036" he="142" />其中p(J)表示在图像集合P中随机抽取一幅训练图像J的概率;p(w<sub>i</sub>/J)表示训练图像J中出现词汇w<sub>i</sub>的后验概率;而p(b<sub>k</sub>/J)表示训练图像J中出现视觉词元b<sub>k</sub>的后验概率;E.根据<img file="FDA0001086037920000022.GIF" wi="438" he="110" />计算p(I/A);F.由公式A=argmax<sub>A</sub>p(I/A)p(A)计算待标注图像I的标注词组A。
地址 100080 北京市海淀区苏州街20号2号楼2层