查询驱动的大规模人脸数据标注方法,申请号CN201610553953.X-传众专利搜索

发明名称	查询驱动的大规模人脸数据标注方法
摘要	本发明提供查询驱动的大规模人脸数据标注方法，包括：结合上下文的自动语义提取：旨在融合上下文信息和样本自身的特征信息来提取图片的语义内容，包括时间，地点、人物、事件等。本发明将重点关注人物信息的提取。针对概率数据库的查询表示及处理：根据得到的语义信息，可以构建语义概率数据库，用户可以对此数据库进行查询。该模块研究如何对用户的查询进行表示和处理，以得到初始的查询结果。基于主动学的人脸标注：为了进一步提高查询结果的准确率，该模块提出一种查询驱动的样本选择策略，来选取未标注的人脸样本返回给用户进行标注。
申请公布号	CN106228120A	申请公布日期	2016.12.14
申请号	CN201610553953.X	申请日期	2016.07.14
申请人	南京航空航天大学	发明人	张立言
分类号	G06K9/00(2006.01)I;G06K9/62(2006.01)I	主分类号	G06K9/00(2006.01)I
代理机构	南京瑞弘专利商标事务所(普通合伙) 32249	代理人	张耀文
主权项	查询驱动的大规模人脸数据标注方法，其特征在于：具体步骤如下：步骤一、结合上下文的自动语义提取：旨在融合上下文信息和样本自身的特征信息来提取图片的语义信息；步骤二、针对概率数据库的查询表示及处理：根据步骤一得到的语义信息，构建语义概率数据库，用户能够对此数据库进行查询；步骤三、基于主动学习的人脸标注：基于问题‑回答模式的用户界面，采用基于高斯过程分类器的主动学习的方法，并提出查询驱动的样本选择策略，来选取未标注的人脸样本返回给用户进行标注；即：选择对于回答查询最有影响力的样本进行标注，样本的影响力由查询驱动的信息熵来表示；具体如下：(1)假设给定用户查询q，通过高斯过程分类模型和查询处理过程，得到查询结果集<img file="FDA0001049092650000011.GIF" wi="235" he="62" />用p(r<sub>j</sub>)表示结果节点r<sub>j</sub>为真的概率，H(r<sub>j</sub>)表示结果节点r<sub>j</sub>的信息熵；给定未标注样本f<sub>i</sub>，定义查询驱动的信息熵为：<maths num="0001"><math><![CDATA[<mrow><msup><mi>I</mi><mi>q</mi></msup><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mo>Σ</mo><mrow><msub><mi>f</mi><mi>i</mi></msub><mo>&DoubleRightArrow;</mo><msub><mi>t</mi><mi>j</mi></msub></mrow></munder><mi>H</mi><mrow><mo>(</mo><msub><mi>r</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><msub><mi>E</mi><msub><mi>f</mi><mi>i</mi></msub></msub><mrow><mo>(</mo><mi>H</mi><mo>(</mo><mrow><msub><mi>r</mi><mi>j</mi></msub><mo>\|</mo><msub><mi>f</mi><mi>i</mi></msub></mrow><mo>)</mo><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001049092650000012.GIF" wi="668" he="110" /></maths>其中，<img file="FDA0001049092650000013.GIF" wi="142" he="54" />表示样本f<sub>i</sub>对结果节点r<sub>j</sub>有影响，H(r<sub>j</sub>)表示结果节点r<sub>j</sub>当前的信息熵，E<sub>fi</sub>(H(r<sub>j</sub>\|f<sub>i</sub>))表示当人脸样本f<sub>i</sub>被标注之后，结果节点r<sub>j</sub>信息熵的期望；查询驱动的信息熵表示待标注样本对给定查询的影响力的大小；(2)对人脸样本进行聚类，得到聚类结果，即人脸样本组<img file="FDA0001049092650000014.GIF" wi="379" he="63" />其中每个样本组中的人脸都是关于同一个人的，所以以人脸组为单位进行标注；给定一个未标注的人脸组C<sub>k</sub>，查询驱动的信息熵表示为；<maths num="0002"><math><![CDATA[<mrow><msup><mi>I</mi><mi>q</mi></msup><mrow><mo>(</mo><msub><mi>C</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mo>Σ</mo><mrow><msub><mi>f</mi><mi>i</mi></msub><mo>&Element;</mo><msub><mi>C</mi><mi>k</mi></msub></mrow></munder><msup><mi>I</mi><mi>q</mi></msup><mrow><mo>(</mo><msub><mi>f</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001049092650000015.GIF" wi="382" he="102" /></maths>即I<sup>q</sup>(C<sub>k</sub>)表示人脸组C<sub>k</sub>中所包括的所有人脸样本的查询驱动的信息熵的总和；(3)给定一个未标记的人脸组C<sub>k</sub>，定义考虑约束条件的查询驱动的信息熵<img file="FDA0001049092650000016.GIF" wi="139" he="95" />为：<maths num="0003"><math><![CDATA[<mrow><mover><msup><mi>I</mi><mi>q</mi></msup><mo>~</mo></mover><mrow><mo>(</mo><msub><mi>C</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><msup><mi>I</mi><mi>q</mi></msup><mrow><mo>(</mo><msub><mi>C</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>k</mi></msub><mo>)</mo></mrow><munder><mo>Σ</mo><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>l</mi><mo>)</mo><mo>&Element;</mo><msup><mi>ϵ</mi><mo>-</mo></msup></mrow></munder><msup><mi>I</mi><mi>q</mi></msup><mrow><mo>(</mo><msub><mi>C</mi><mi>l</mi></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001049092650000017.GIF" wi="734" he="135" /></maths>其中，p(C<sub>k</sub>)表示人脸组C<sub>k</sub>标记为正的概率，(k,l)∈ε<sup>‑</sup>表示人脸组C<sub>k</sub>和C<sub>l</sub>属于不同的人具有不同约束；通过该公式，能够对每一个未标记的人脸组，计算出考虑约束条件的查询驱动的信息熵，然后以此为依据来选择人脸组返回给用户，表示为：<img file="FDA0001049092650000021.GIF" wi="430" he="118" />即选择<img file="FDA0001049092650000022.GIF" wi="139" he="87" />值最大的未标记人脸组返回给用户。
地址	210016 江苏省南京市秦淮区御道街29号