发明名称 查询驱动的大规模人脸数据标注方法
摘要 本发明提供查询驱动的大规模人脸数据标注方法,包括:结合上下文的自动语义提取:旨在融合上下文信息和样本自身的特征信息来提取图片的语义内容,包括时间,地点、人物、事件等。本发明将重点关注人物信息的提取。针对概率数据库的查询表示及处理:根据得到的语义信息,可以构建语义概率数据库,用户可以对此数据库进行查询。该模块研究如何对用户的查询进行表示和处理,以得到初始的查询结果。基于主动学的人脸标注:为了进一步提高查询结果的准确率,该模块提出一种查询驱动的样本选择策略,来选取未标注的人脸样本返回给用户进行标注。
申请公布号 CN106228120A 申请公布日期 2016.12.14
申请号 CN201610553953.X 申请日期 2016.07.14
申请人 南京航空航天大学 发明人 张立言
分类号 G06K9/00(2006.01)I;G06K9/62(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 南京瑞弘专利商标事务所(普通合伙) 32249 代理人 张耀文
主权项 查询驱动的大规模人脸数据标注方法,其特征在于:具体步骤如下:步骤一、结合上下文的自动语义提取:旨在融合上下文信息和样本自身的特征信息来提取图片的语义信息;步骤二、针对概率数据库的查询表示及处理:根据步骤一得到的语义信息,构建语义概率数据库,用户能够对此数据库进行查询;步骤三、基于主动学习的人脸标注:基于问题‑回答模式的用户界面,采用基于高斯过程分类器的主动学习的方法,并提出查询驱动的样本选择策略,来选取未标注的人脸样本返回给用户进行标注;即:选择对于回答查询最有影响力的样本进行标注,样本的影响力由查询驱动的信息熵来表示;具体如下:(1)假设给定用户查询q,通过高斯过程分类模型和查询处理过程,得到查询结果集<img file="FDA0001049092650000011.GIF" wi="235" he="62" />用p(r<sub>j</sub>)表示结果节点r<sub>j</sub>为真的概率,H(r<sub>j</sub>)表示结果节点r<sub>j</sub>的信息熵;给定未标注样本f<sub>i</sub>,定义查询驱动的信息熵为:<maths num="0001"><math><![CDATA[<mrow><msup><mi>I</mi><mi>q</mi></msup><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msub><mi>f</mi><mi>i</mi></msub><mo>&DoubleRightArrow;</mo><msub><mi>t</mi><mi>j</mi></msub></mrow></munder><mi>H</mi><mrow><mo>(</mo><msub><mi>r</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><msub><mi>E</mi><msub><mi>f</mi><mi>i</mi></msub></msub><mrow><mo>(</mo><mi>H</mi><mo>(</mo><mrow><msub><mi>r</mi><mi>j</mi></msub><mo>|</mo><msub><mi>f</mi><mi>i</mi></msub></mrow><mo>)</mo><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001049092650000012.GIF" wi="668" he="110" /></maths>其中,<img file="FDA0001049092650000013.GIF" wi="142" he="54" />表示样本f<sub>i</sub>对结果节点r<sub>j</sub>有影响,H(r<sub>j</sub>)表示结果节点r<sub>j</sub>当前的信息熵,E<sub>fi</sub>(H(r<sub>j</sub>|f<sub>i</sub>))表示当人脸样本f<sub>i</sub>被标注之后,结果节点r<sub>j</sub>信息熵的期望;查询驱动的信息熵表示待标注样本对给定查询的影响力的大小;(2)对人脸样本进行聚类,得到聚类结果,即人脸样本组<img file="FDA0001049092650000014.GIF" wi="379" he="63" />其中每个样本组中的人脸都是关于同一个人的,所以以人脸组为单位进行标注;给定一个未标注的人脸组C<sub>k</sub>,查询驱动的信息熵表示为;<maths num="0002"><math><![CDATA[<mrow><msup><mi>I</mi><mi>q</mi></msup><mrow><mo>(</mo><msub><mi>C</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msub><mi>f</mi><mi>i</mi></msub><mo>&Element;</mo><msub><mi>C</mi><mi>k</mi></msub></mrow></munder><msup><mi>I</mi><mi>q</mi></msup><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001049092650000015.GIF" wi="382" he="102" /></maths>即I<sup>q</sup>(C<sub>k</sub>)表示人脸组C<sub>k</sub>中所包括的所有人脸样本的查询驱动的信息熵的总和;(3)给定一个未标记的人脸组C<sub>k</sub>,定义考虑约束条件的查询驱动的信息熵<img file="FDA0001049092650000016.GIF" wi="139" he="95" />为:<maths num="0003"><math><![CDATA[<mrow><mover><msup><mi>I</mi><mi>q</mi></msup><mo>~</mo></mover><mrow><mo>(</mo><msub><mi>C</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><msup><mi>I</mi><mi>q</mi></msup><mrow><mo>(</mo><msub><mi>C</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>k</mi></msub><mo>)</mo></mrow><munder><mo>&Sigma;</mo><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo><mo>&Element;</mo><msup><mi>&epsiv;</mi><mo>-</mo></msup></mrow></munder><msup><mi>I</mi><mi>q</mi></msup><mrow><mo>(</mo><msub><mi>C</mi><mi>l</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001049092650000017.GIF" wi="734" he="135" /></maths>其中,p(C<sub>k</sub>)表示人脸组C<sub>k</sub>标记为正的概率,(k,l)∈ε<sup>‑</sup>表示人脸组C<sub>k</sub>和C<sub>l</sub>属于不同的人具有不同约束;通过该公式,能够对每一个未标记的人脸组,计算出考虑约束条件的查询驱动的信息熵,然后以此为依据来选择人脸组返回给用户,表示为:<img file="FDA0001049092650000021.GIF" wi="430" he="118" />即选择<img file="FDA0001049092650000022.GIF" wi="139" he="87" />值最大的未标记人脸组返回给用户。
地址 210016 江苏省南京市秦淮区御道街29号