发明名称 面向跨媒体新闻检索的人脸-人名对齐方法及系统
摘要 本发明属于跨媒体信息检索技术领域,具体为跨媒体新闻检索中基于图像特征和文本语义的人脸-人名对齐方法与系统。本发明包括四个主要算法:人名重要性评估算法、基于Web挖掘的多模态信息发现算法、人脸集内聚度度量算法和多模态对齐组合优化算法。本发明使用相关的图像特征和文本语义处理方法,同时建立相关数学模型,对新闻图像搜索进行优化,包括通过多级别深层次的文本语义分析,有效的人脸-人名对齐评估机制,具有问题针对性的组合优化。本发明对于在大规模且多样性新闻图像基础上,考虑图像高层语义信息而进行高效图像检索具有非常重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。
申请公布号 CN102629275B 申请公布日期 2014.04.02
申请号 CN201210076089.0 申请日期 2012.03.21
申请人 复旦大学 发明人 张玥杰;吴伟;金城;薛向阳
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I;G06N3/12(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海正旦专利代理有限公司 31200 代理人 陆飞;盛志范
主权项 1.一种跨媒体新闻检索中基于图像特征和文本语义的人脸-人名对齐方法,其特征在于具体步骤如下:(1) 图像与文本预处理,针对原始新闻图像信息,进行人脸与人名的检测和提取,并对检测和提取出来的人脸图像进行预处理与相似性度量;(2) 人名重要性评估,对新闻图像带有的文本标注进行多层次的文本分析,利用各个人名在对应文本标注中出现的频率、句法分析树中的深度、句法分析树中的广度遍历顺序三个要素,对从文本标注中检测提取出来的所有人名度量各自的相对重要性;(3) 基于Web挖掘的多模态信息发现,将一些在当前新闻图像集中出现仅一次或少数几次的人名作为查询文本,通过主流的图像搜索网站对其进行图像检索,并对所有的信息检索结果进行评估,衡量这些检索结果与当前查询人名的相关性,以此实现针对这些特殊人名获得更为充分的附加多模态信息资源;(4) 人脸集内聚度度量,在人脸与人名的对齐过程中,对任意一种全局对齐方式利用<i>k</i>近邻算法计算各个人名对应的人脸集中所有人脸的紧密度分值,以此获得各个人脸集的内聚度,进而对当前人脸-人名对齐方式进行有效评估;(5) 多模态对齐组合优化,利用各人脸集的内聚度,设定全局目标函数,并按照人脸-人名对齐分配的处理机制,设立全局约束条件,建立整数规划模型,采用改进的自适应遗传算法进行问题求解,同时结合模拟退火算法,以此能够同时具有较好的全局解与局部解的寻优能力,进而最终能够更好地对人脸-人名对齐问题进行求解;所述的人脸集内聚度度量步骤中,首先,采用两张人脸的<i>k</i>最近邻兄弟的共有兄弟结点数目来进行人脸相似性度量,进而避免高维空间中人脸之间的同一性;假设在当前的全局人脸-人名对齐方式下,人名<i>N</i><sub><i>m</i></sub>相对应的人脸集为<i>FS_N</i><sub><i>m</i></sub>,人脸<i>F</i><sub><i>i</i></sub>和人脸<i>F</i><sub><i>j</i></sub>是此人脸集中的两张人脸,则<i>F</i><sub><i>i</i></sub>和<i>F</i><sub><i>j</i></sub>之间的相似度可进一步定义如下:<img file="332330DEST_PATH_IMAGE001.GIF" wi="514" he="61" />(4)其中,<i>KNS</i>(<i>F</i><sub><i>i</i></sub>, <i>FS</i>_<i>N</i><sub><i>m</i></sub>, <i>k</i>)和<i>KNS</i>(<i>F</i><sub><i>j</i></sub>, <i>FS</i>_<i>N</i><sub><i>m</i></sub>, <i>k</i>)分别表示人脸<i>F</i><sub><i>i</i></sub>和<i>F</i><sub><i>j</i></sub>位于人名<i>N</i><sub><i>m</i></sub>对应的人脸集<i>FS</i>_<i>N</i><sub><i>m</i></sub>中时,各自对应的<i>k</i>个最近邻兄弟;<i>k</i>是一个动态变化值,根据当前人名对应的人脸集大小而进行变动,与人脸集大小成正比;其次,使用局部紧密度分值来度量每张人脸在各自人脸集中的紧密程度,紧密程度越大则人脸与其所在人脸集所属的人名越相关;每张人脸的紧密度分值可表示为各人脸与其在同一人脸集中的<i>k</i>近邻人脸之间的平均相似度,则人脸<i>F</i><sub><i>i</i></sub>的<i>LDS</i>值定义为如下:<img file="804900DEST_PATH_IMAGE002.GIF" wi="516" he="75" />(5)从上式可看出,人脸<i>F</i><sub><i>i</i></sub>相应的<i>LDS</i>值越高,则表示<i>F</i><sub><i>i</i></sub>与和它属同一人脸集<i>FS</i>_<i>N</i><sub><i>m</i></sub>中的近邻人脸紧密性和连接性越高,也就说明<i>F</i><sub><i>i</i></sub>与该人名<i>N</i><sub><i>m</i></sub>更相关;在上述基础之上,进一步用局部内聚度概念,用来衡量在当前的一种全局人脸-人名对齐方式下,各个人名对应人脸集中所有人脸之间的整体相互紧密性;局部内聚度记为<i>LCD</i>,其计算方式定义如下:<img file="449508DEST_PATH_IMAGE003.GIF" wi="501" he="48" />(6)<i>LDS</i>值之和的相对值越大,则在一定程度上说明所有人脸与所有人名之间的整体相关性越大,即所有人名对应的人脸集能够具有较高的全局整体紧密性;所述内聚度度量算法流程如下:(1)获得输入,即当前人脸-人名对齐方式下各人名对应的人脸集;(2)计算当前人脸集中每张人脸的<i>k</i>近邻兄弟;(3)计算当前人脸集中每张人脸的局部紧密度分值;(4)获得当前人脸集对应的整体局部内聚度;(5)重复步骤(2)-(4),直到计算完每个人脸集的局部内聚度;所述的多模态对齐组合优化步骤中,将人脸与人名对齐作为一种组合匹配问题,分析其全局关联性与局部限制性,制定该问题所需要满足的各种约束条件,建立一种整数规划模型,并同时结合使用改进的自适应模拟退火遗传算法,对该受约束的整数规划模型进行求解,进而有效地完成人脸-人名的对齐过程;具体过程如下:<b>(一)建立整数规划数学模型</b>假设当前共有<i>P</i>个图像-文本对,每个图像-文本对都包含一定数量的不同人脸及不同人名,而不同的图像-文本对之间可能包含相同的人名,这<i>P</i>条图像-文本对共包含<i>F</i>张人脸和<i>N</i>个人名;首先,自定义如下参数和变量:<i>PS</i>——表示所有<i>P</i>个图像-文本对集合;<i>FS</i> ——表示<i>P</i>个图像-文本对中包含的所有人脸集合;<i>NS</i> ——表示<i>P</i>个图像-文本对中包含的所有人名集合;<i>W</i>_<i>FP</i><sub><i>ij</i></sub>——表示人脸<i>F</i><sub><i>j</i></sub>是否存在于图像-文本对<i>P</i><sub><i>i</i></sub>中,<i>P</i><sub><i>i</i></sub>∈<i>PS</i>, <i>F</i><sub><i>j</i></sub>∈<i>FS</i>, <i>i</i>=1, …, |<i>PS</i>|, <i>j</i>=1, …, |<i>FS</i>|,<i>W</i>_<i>FP</i><sub><i>ij</i></sub>定义为满足如下条件的布尔变量:<img file="374739DEST_PATH_IMAGE004.GIF" wi="345" he="64" /><i>W</i>_<i>NP</i><sub><i>ik</i></sub>——表示人名<i>N</i><sub><i>k</i></sub>是否存在于图像-文本对<i>P</i><sub><i>i</i></sub>中,<i>P</i><sub><i>i</i></sub>∈<i>PS</i>, <i>N</i><sub><i>k</i></sub>∈<i>NS</i>, <i>i</i>=1, …, |<i>PS</i>|, <i>k</i>=1, …, |<i>NS</i>|,<i>W</i>_<i>NP</i><sub><i>ik</i></sub>定义为满足如下条件的布尔变量:<img file="333467DEST_PATH_IMAGE005.GIF" wi="340" he="64" /><i>FP</i><sub><i>i</i></sub>——表示<i>P</i><sub><i>i</i></sub>中所包含的人脸集合,<i>FP</i><sub><i>i</i></sub>={<i>F</i><sub><i>j</i></sub>|<i>W</i>_<i>FP</i><sub><i>ij</i></sub>=1, <i>F</i><sub><i>j</i></sub>∈<i>FS</i>}, <i>P</i><sub><i>i</i></sub>∈<i>PS</i>, <i>i</i>=1, …, |<i>PS</i>|;<i>NP</i><sub><i>i</i></sub>——表示<i>P</i><sub><i>i</i></sub>中所包含的人名集合,<i>NP</i><sub><i>i</i></sub>={<i>N</i><sub><i>k</i></sub>|<i>W</i>_<i>NP</i><sub><i>ik</i></sub>=1, <i>N</i><sub><i>k</i></sub>∈<i>NS</i>}, <i>P</i><sub><i>i</i></sub>∈<i>PS</i>, <i>i</i>=1, …, |<i>PS</i>|;<i>W</i>_<i>FN</i><sub><i>kj</i></sub>——表示<i>F</i><sub><i>j</i></sub>是否被分配给<i>N</i><sub><i>k</i></sub>,<i>F</i><sub><i>j</i></sub>∈<i>FS</i>, <i>N</i><sub><i>k</i></sub>∈<i>NS</i>, <i>j</i>=1, …, |<i>FS</i>|, <i>k</i>=1, …, |<i>NS</i>|,<i>W</i>_<i>FN</i><sub><i>kj</i></sub>定义为满足如下条件的布尔变量:<img file="394964DEST_PATH_IMAGE006.GIF" wi="410" he="72" /><i>FS</i>_<i>N</i><sub><i>m</i></sub>——表示在当前的全局人脸-人名对齐方式下人名<i>N</i><sub><i>m</i></sub>被分配的人脸集合,<i>N</i><sub><i>m</i></sub>∈<i>NS</i>, <i>m</i>=1, …, |<i>NS</i>|;<i>LCD</i>(<i>FS</i>_<i>N</i><sub><i>m</i></sub>, <i>k</i>)——表示人名<i>N</i><sub><i>m</i></sub>对应人脸集<i>FS_N</i><sub><i>m</i></sub>的局部内聚度,此局部内聚度已在人脸集内聚度度量算法中定义,<i>N</i><sub><i>m</i></sub>∈<i>NS</i>, <i>m</i>=1, …, |<i>NS</i>|; 然后,针对人脸-人名对齐问题所提出的数学模型,利用内聚度概念构造目标函数,其定义表述如下:<img file="679315DEST_PATH_IMAGE007.GIF" wi="612" he="200" />(7)同时,该数学模型还需要满足以下约束条件:(1)<img file="763946DEST_PATH_IMAGE008.GIF" wi="145" he="53" />,<img file="526366DEST_PATH_IMAGE009.GIF" wi="147" he="52" />, 即,各个图像-文本对所包含人脸集合的并集就是总共包含的人脸集,人名集合的并集就是总共包含的人名集;(2)<i>FP</i><sub><i>i</i></sub>∩<i>FP</i><sub><i>j</i></sub>=Ф, <i>i</i>≠<i>j</i>, <i>i</i>, <i>j</i>=1, …, |<i>PS</i>|, 即,任意两个不同图像-文本对所包含的人脸集合均无交集;(3)|<i>FP</i><sub><i>i</i></sub>|=|<i>NPi</i>|, <i>i</i>≠<i>j</i>, <i>i</i>, <i>j</i>=1, …, |<i>PS</i>|,即,经过预处理后,任意一个图像-文本对中所包含的人脸数目与不同人名数目相同;          (4)<img file="707948DEST_PATH_IMAGE010.GIF" wi="191" he="43" />, <i>F</i><sub><i>j</i></sub>∈<i>FP</i><sub><i>i</i></sub>, <i>N</i><sub><i>k</i></sub>∈<i>NP</i><sub><i>i</i></sub>, <i>i</i>=1, …, |<i>PS</i>|, <i>j</i>=1, …, |<i>FP</i><sub><i>i</i></sub>|,即,在一个图像-文本对中,每张人脸必须且只能被分配给此对中的一个人名;(5)<img file="428779DEST_PATH_IMAGE011.GIF" wi="205" he="43" />, <i>F</i><sub><i>j</i></sub>∈<i>FP</i><sub><i>i</i></sub>, <i>N</i><sub><i>k</i></sub>∈<i>NP</i><sub><i>i</i></sub>, <i>i</i>=1, …, |<i>PS</i>|, <i>k</i>=1, …, |<i>NP</i><sub><i>i</i></sub>|,即,在一个图像-文本对中,每个人名必须且只能分配到此对中的一张人脸;(6)<img file="328602DEST_PATH_IMAGE012.GIF" wi="241" he="41" />, <i>i</i>=1, …, |<i>PS</i>|, <i>j</i>=1, …, |<i>FP</i><sub><i>i</i></sub>|, <i>l</i>=1, …, |<i>NS</i>|,即,保证一个图像-文本中的人脸只能分配给此对中所包含的人名,而不能分配给此对之外的人名;<b>(二)采用改进的自适应模拟退火遗传算法求解整数规划数学模型</b>(1)染色体编码设计令所有标注文本中的人名固定排序,对所有人脸图像分段排序为一个染色体,每个染色体对应一个解,采用自然数编码设计染色体:<i>C</i>={<i>g</i><sub><i>ij</i></sub>}, <i>i</i>=1, …, |<i>PS</i>|, <i>j</i>=1, …, |<i>FP</i><sub><i>i</i></sub>|其中,<i>P</i><sub><i>i</i></sub>表示第<i>i</i>个图像-文本对;<i>j</i>表示<i>P</i><sub><i>i</i></sub>中包含的人脸数;<i>g</i><sub><i>ij</i></sub>表示位于<i>P</i><sub><i>i</i></sub>中的人脸<i>F</i><sub><i>j</i></sub>所对应的人脸编号,和<i>P</i><sub><i>i</i></sub>中的人名编号具有一一对应关系;染色体C可进一步表示为:{<i>g</i><sub>11</sub>, <i>g</i><sub>12</sub>, …, <i>g</i><sub>1|<i>FP</i>1|</sub>, <i>g</i><sub>21</sub>, <i>g</i><sub>22</sub>, …, <i>g</i><sub>2|<i>FP</i>2|</sub>,…, <i>g</i><sub><i>i</i>1</sub>, <i>g</i><sub><i>i</i>2</sub>, …, <i>g</i><sub><i>i</i>|<i>FPi</i>|</sub>, …, <i>g</i><sub>|<i>PS</i>|1</sub>, <i>g</i><sub>|<i>PS</i>|2</sub>, …,        <i>g</i><sub>|<i>PS</i>||<i>FP</i>|PS||</sub>};其中,称{<i>g</i><sub><i>i</i>1</sub>, <i>g</i><sub><i>i</i>2</sub>, …, <i>g</i><sub><i>i</i>|<i>FPi</i>|</sub>}为一个段,各段之间保持相对独立,这种编码方式能够有效保证<i>P</i><sub><i>i</i></sub>内约束的可行性;(2)初始种群生成根据上述染色体编码的要求,采用各段内随机排序的方式产生包含<i>L</i>个染色体的初始种群<i>P</i>(<i>t</i>);按数学模型中的目标函数值,选取当前最好的一个解作为初始最优解;(3)自适应复制选择首先,根据数学模型,在一特定种群中第<i>l</i>条染色体的目标函数定义如下:<img file="65352DEST_PATH_IMAGE013.GIF" wi="592" he="182" />(8)采用滚轮盘的方式进行复制,每条染色体的复制选择概率定义如下:<img file="367020DEST_PATH_IMAGE014.GIF" wi="333" he="101" />(9)其中,<i>M</i>表示当前种群所包含的染色体数目;<i>f’</i>( )表示由原始的适应度函数<i>f</i>( ),通过自适应转换方法所获得的一个新的适应度函数,原始的适应度函数<i>f</i>( )定义如下:<img file="462015DEST_PATH_IMAGE015.GIF" wi="390" he="65" />(10)其次,采用以下方法进行适应度值的自适应变换:<img file="849134DEST_PATH_IMAGE016.GIF" wi="439" he="95" />(11)其中,<i>f</i><sub>max</sub>为当前种群的最大适应值;<i>f</i><sub>min</sub>为当前最小适应值;<i>g</i>为当前遗传代数;<i>g</i><sub>max</sub>为最大遗传代数;<i>a</i>&gt;0,为常数参数;<i>f</i>(<i>C</i><sub><i>l</i></sub>)为个体<i>C</i><sub><i>l</i></sub>对应的原始      适应度值;<i>f</i>’(<i>C</i><sub><i>l</i></sub>)为个体<i>C</i><sub><i>l</i></sub>变换后的适应度值;(4)自适应模拟退火交叉与变异在遗传过程中,同样采用自适应方法,对交叉概率和变异概率进行自适应调整,交叉概率和变异概率按照如下方式根据各代种群情况自适应获得:交叉概率定义如下:<img file="750094DEST_PATH_IMAGE017.GIF" wi="622" he="79" />(12)变异概率定义如下:<img file="640690DEST_PATH_IMAGE018.GIF" wi="602" he="100" />(13)其中,max(<i>f</i>(<i>C</i><sub><i>i</i></sub>), <i>f</i>(<i>C</i><sub><i>j</i></sub>))表示对于进行杂交的染色体,两者适应度值中更大的适应度值;<i>f</i><sub>max</sub>为当前种群的最大适应值;<i>f</i><sub>avg</sub>为当前种群的平均适应度值;<i>f</i>(<i>C</i><sub><i>i</i></sub>)为当前进行变异操作的染色体的适应度值;<img file="109848DEST_PATH_IMAGE019.GIF" wi="82" he="35" />,<img file="718684DEST_PATH_IMAGE020.GIF" wi="93" he="36" />,四者为预先设置的常数参数;结合Metropolis准则,对于是否接受劣解时引入模拟退火操作,当新染色体的适应度值更为差时,利用下式生成一个接受当前劣势解的概率:<img file="626597DEST_PATH_IMAGE021.GIF" wi="436" he="90" />(14)其中,<i>f</i>(<i>C</i><sub><i>l</i></sub>’)表示进行交叉或变异操作后对应生成的新染色体的适应度值;<i>T</i><sub>0 </sub>为模拟退火操作设置的初始温度;<i>δ</i>为预设定的降温比例系数;<i>g</i>为当前遗传代数;改进的自适应模拟退火遗传算法流程如下:(1)设计构造染色体编码,获得输入;(2)生成初始种群<i>P</i>(<i>t</i>),记录当前最优染色体,设定各参数初始值;(3)计算当前种群中各染色体的适应度值及自适应转换后的适应度值,采用滚轮盘选择算法,对种群中的各染色体进行选择复制过程;(4)采用单点交叉算法,利用自适应交叉概率,对经过步骤(3)得到的染色体两两进行杂交过程,并利用模拟退火判断机制,判断交叉后所得到的新染色体是否需要进行替换或丢弃;(5)采用交换变异算法,利用自适应变异概率,对经过步骤(4)后的所有染色体执行变异过程,并利用模拟退火判断机制,判断变异后得到的染色体是否需要进行替换或丢弃;(6)重新计算当前种群中的最优染色体,并判断是否需要更新上一代保存下来的最优染色体;(7)重复步骤(3)-(6),直至收敛或迭代次数达到设定条件。
地址 200433 上海市杨浦区邯郸路220号