发明名称 一种基于多任务学的人脸图像种族和性别识别方法
摘要 一种基于多任务学的人脸图像种族和性别识别方法,该方法涉及数字图像处理、模式识别、计算机视觉、生理学等技术领域,用于解决多种场合下基于静态图像或视频图像的人脸图像种族和性别识别问题。多任务学方法是一种通过相关任务学来提高学性能的学方法,既可以区分任务间学的差异性,也可以共享任务间相关特征,通过相关性来提高学能力,缓解高维小样本过学问题。将多任务学方法引入人脸图像种族和性别识别中,以不同语义作为不同任务,提出基于语义的多任务特征选择,应用于种族和性别识别,能显著提高学系统的泛化能力和识别效果。
申请公布号 CN105894050A 申请公布日期 2016.08.24
申请号 CN201610383915.4 申请日期 2016.06.01
申请人 北京联合大学 发明人 袁家政;赵新超
分类号 G06K9/66(2006.01)I;G06K9/62(2006.01)I;G06K9/46(2006.01)I;G06K9/40(2006.01)I 主分类号 G06K9/66(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 沈波
主权项 一种基于多任务学习的人脸图像种族和性别识别方法,其特征在于:该方法包括如下步骤:S1图片预处理图片预处理是人脸识别流程中重要的一个环节,其主要目的是削弱甚至消除人脸图片中对识别无关的信息,滤除噪声干扰,增强有用信息的比重,便于后期提取更加有效的特征用于分类;本发明采用的图片预处理的方法主要包括:(1)直方图均衡化:该方法将已知图片经过某种变换,使其灰度概率密度呈均勾分布,以此削弱光照不均匀变化的影响,从而增强图像整体对比度;直方图均衡化分三步:a)统计原图像的直方图;b)由原始图片的灰度直方图根据积分累计函数做变换生成新灰度直方图;S<sub>k</sub>=T(r<sub>k</sub>)=∑P<sub>r</sub>(r)其中,S<sub>k</sub>表示变换后的图像灰度;r表示原始图像灰度;k表示灰度级编号;T(r<sub>k</sub>)表示变换函数;P<sub>r</sub>(r)表示图像灰度级的概率密度函数;c)用新灰度直方图代替原直方图,此时可使图片中各个像素值出现的概率相近;(2)灰度拉伸:灰度拉伸是最基本的灰度变换方法之一,通过采用分段线性函数对原始图像灰度值的任一范围进行转换,使其变化到指定的区间,从而可以增大图像在某一区间的对比度;灰度拉伸分两步完成:a)在原始图像上计算直方图,根据原始图像的直方图分布情况来确定灰度拉伸的拐点;b)使用确定的分段线性函数将原像素灰度值映射成指定数值,以此代替原像素值;通过该方法对人脸图片的像素值的指定范围进行映射,从而增强灰度值局部对比度;(3)图像归一化:人脸图像归一化包含两个方面:a)将人脸图片进行缩放或者旋转使其成为大小一致、人脸特征点位置大致相同的一批图片,这一步骤称为人脸图片的几何归一化;这是由于人脸图片在采集的过程中,一些物理位置的差异造成的如人脸拍摄距离不同或者人脸的拍摄角度差异;b)消除在人脸图片采集过程中由于光照变化等带来的图片像素值差异较大的影响;对这一类差异我们可进行图像的灰度值归一化操作,以此削弱因光照或者拍摄角度不同引起的灰度值的差异;通过对图像进行归一化可以在很大程度上改善人脸识别系统的性能,提高识别算法识别率,因此具有很重要的意义;S2多任务标记(1)从训练样本库中选择M幅人脸图片作为训练样本集,并进行预处理;(2)对于给定的c个相关学习任务,训练集标记为:{(X<sub>1</sub>,y<sub>1</sub>),…,(X<sub>c</sub>,y<sub>c</sub>)},其中:<img file="FDA0001007161620000022.GIF" wi="280" he="70" />表示第i个任务的训练样本;<img file="FDA0001007161620000023.GIF" wi="227" he="63" />表示第i个任务的类标;n:表示第i个任务训练样本的个数;d:表示训练样本的维数;通过c个任务的共同学习,以期得到权重矩阵:W=[w<sub>1</sub>,…,w<sub>c</sub>]∈R<sup>d*c</sup>,<img file="FDA0001007161620000021.GIF" wi="523" he="79" />为第i个任务的权值系数;S3训练模型假设J<sub>i</sub>(w<sub>i</sub>,X<sub>i</sub>,y<sub>i</sub>)=|w<sub>i</sub>X<sub>i</sub>‑y<sub>i</sub>|为第i个任务的损失函数,通用的损失函数有:对数似然函数、指数似然函数和Hinge函数;对于第i个任务,最小化经验误差的同时,使用范式得到优化问题如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><msub><mi>w</mi><mi>i</mi></msub></munder><msub><mi>J</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>y</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>&lambda;</mi><mo>|</mo><mo>|</mo><msub><mi>w</mi><mi>i</mi></msub><mo>|</mo><msub><mo>|</mo><mn>1</mn></msub></mrow>]]></math><img file="FDA0001007161620000036.GIF" wi="647" he="96" /></maths>对单个任务来看,上述问题通常被称为LASSO(least absolute shrinkage and selection operator),即稀疏表示分类(sparse representation for classification,SRC)方法,LASSO是一个凸优化问题,不再具有解析解,但求解过程中会使w<sub>i</sub>中多项趋近于0,具有稀疏性,是l<sub>0</sub>正则化很好的近似(l<sub>0</sub>是NP难问题);单独求解c个任务的最优解与求解联合任务的全局目标函数一致,表述如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mi>W</mi></munder><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><msub><mi>J</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>y</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>&lambda;</mi><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><mo>|</mo><mo>|</mo><msub><mi>w</mi><mi>i</mi></msub><mo>|</mo><msub><mo>|</mo><mn>1</mn></msub></mrow>]]></math><img file="FDA0001007161620000031.GIF" wi="819" he="199" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>W</mi><mo>=</mo><mfenced open = "(" close = ")"><mtable><mtr><mtd><msubsup><mi>w</mi><mn>1</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>w</mi><mn>2</mn><mn>1</mn></msubsup></mtd><mtd><mo>...</mo></mtd><mtd><msubsup><mi>w</mi><mi>c</mi><mn>1</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>w</mi><mn>1</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>w</mi><mn>2</mn><mn>2</mn></msubsup></mtd><mtd><mo>...</mo></mtd><mtd><msubsup><mi>w</mi><mi>c</mi><mn>2</mn></msubsup></mtd></mtr><mtr><mtd><mo>...</mo></mtd><mtd><mo>...</mo></mtd><mtd><mo>...</mo></mtd><mtd><mo>...</mo></mtd></mtr><mtr><mtd><msubsup><mi>w</mi><mn>1</mn><mi>d</mi></msubsup></mtd><mtd><msubsup><mi>w</mi><mn>2</mn><mi>d</mi></msubsup></mtd><mtd><mo>...</mo></mtd><mtd><msubsup><mi>w</mi><mi>c</mi><mi>d</mi></msubsup></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0001007161620000032.GIF" wi="660" he="327" /></maths>可见,在l<sub>1</sub>范数的约束下,各个任务之间是相互独立的,为了对全局特征进行特征选择,做如下改变后,得到l<sub>2</sub>范数约束下的目标函数表达形式:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><munder><mi>min</mi><mi>W</mi></munder><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>c</mi></munderover><msub><mi>J</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>y</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>&lambda;</mi><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>d</mi></munderover><mo>|</mo><mo>|</mo><msup><mi>w</mi><mi>k</mi></msup><mo>|</mo><msub><mo>|</mo><mn>2</mn></msub></mrow>]]></math><img file="FDA0001007161620000033.GIF" wi="854" he="199" /></maths><maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><mi>W</mi><mo>=</mo><mfenced open = "(" close = ")"><mtable><mtr><mtd><msubsup><mi>w</mi><mn>1</mn><mn>1</mn></msubsup></mtd><mtd><msubsup><mi>w</mi><mn>2</mn><mn>1</mn></msubsup></mtd><mtd><mo>...</mo></mtd><mtd><msubsup><mi>w</mi><mi>c</mi><mn>1</mn></msubsup></mtd></mtr><mtr><mtd><msubsup><mi>w</mi><mn>1</mn><mn>2</mn></msubsup></mtd><mtd><msubsup><mi>w</mi><mn>2</mn><mn>2</mn></msubsup></mtd><mtd><mo>...</mo></mtd><mtd><msubsup><mi>w</mi><mi>c</mi><mn>2</mn></msubsup></mtd></mtr><mtr><mtd><mo>...</mo></mtd><mtd><mo>...</mo></mtd><mtd><mo>...</mo></mtd><mtd><mo>...</mo></mtd></mtr><mtr><mtd><msubsup><mi>w</mi><mn>1</mn><mi>d</mi></msubsup></mtd><mtd><msubsup><mi>w</mi><mn>2</mn><mi>d</mi></msubsup></mtd><mtd><mo>...</mo></mtd><mtd><msubsup><mi>w</mi><mi>c</mi><mi>d</mi></msubsup></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0001007161620000034.GIF" wi="660" he="334" /></maths>直观可见l<sub>2</sub>范数下共享了各个任务之间的特征;从整个W来看,<img file="FDA0001007161620000035.GIF" wi="286" he="87" />先计算w<sup>k</sup>的2范数,再求和,称为l<sub>1</sub>/l<sub>2</sub>范数;通过迭代求得最优的c个任务的稀疏系数W,W的每一列对应单个任务的稀疏系数,稀疏值绝对值越大,表明该维特征对所在任务识别的贡献率越大,按贡献值排序后即可实现对每种任务的特征进行选择,最终得到最优模型;S4模型测试(1)从测试样本库中选择N幅人脸图片作为测试样本集,并进行预处理;(2)将测试图片依次输入到训练好的模型中,同时对两个任务进行求解;(3)对求解的类别得分进行排序,取最大值作为最终的预测类别;(4)得出人脸图片的种族和性别的类别之后,可根据索引从对应的类标记文件中读取标记文本进行输出说明。
地址 100101 北京市朝阳区北四环东路97号