发明名称 基于多尺度LBP和稀疏编码的大规模人脸表情识别方法
摘要 本发明提供了一种基于多尺度LBP和稀疏编码的大规模人脸表情识别方法,首先建立大规模的人脸表情数据库,使用随机抽样技术生成训练数据库与测试数据库,其次使用多尺度的LBP特征来表示人脸的表情特征,进而生成稀疏编码方法所需要的字典,通过对新的表情样本求解最优稀疏系数,并累加不同表情的稀疏系数来识别表情样本,本发明利用多尺度LBP特征获取鲁棒性强的特征表示方式,利用稀疏编码解决了大规模人脸表情识别中的稀疏性问题,验证了基于多尺度LBP和稀疏编码的大规模人脸表情识别方法的有效性。
申请公布号 CN103971095A 申请公布日期 2014.08.06
申请号 CN201410195403.6 申请日期 2014.05.09
申请人 西北工业大学 发明人 彭先霖;夏召强;冯晓毅;彭进业;王珺;毛晓菲;崔明辉;胡旭涛
分类号 G06K9/00(2006.01)I;G06K9/46(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 西北工业大学专利中心 61204 代理人 顾潮琪
主权项 一种基于多尺度LBP和稀疏编码的大规模人脸表情识别方法,其特征在于包括下述步骤:(1)大规模表情数据库的建立针对每种表情,每种表情下载N<sub>1</sub>幅图片,N<sub>1</sub>为任意整数,六种表情共6*N<sub>1</sub>幅图片,并通过使用AP聚类算法对每种表情图片进行聚类,人工选择出与每种表情最一致的图片聚类中心,每种表情得到N<sub>2</sub>幅图片,N<sub>2</sub>为任意整数,构成大规模人脸表情数据库,该大规模人脸表情数据库共有6*N<sub>2</sub>幅表情图片;利用AdaBoost方法对大规模人脸表情数据库中的图片进行人脸检测和归一化处理;从每种表情的N<sub>2</sub>幅图片中随机抽取M幅图片作为该类表情的训练数据库,所有表情组成的训练数据库包含6*M幅图片,剩余的该类表情图片作为测试数据库;(2)多尺度LBP特征提取将人脸按照水平方向和垂直方向划分为n×n等大小的子块,n为任意整数,针对每个子块分别计算其多尺度的LBP直方图,计算方法如下:每个像素点某尺度上的LBP<sub>P,R</sub>值为:<img file="FDA0000502868680000011.GIF" wi="1011" he="147" />其中,g<sub>c</sub>为像素点的灰度值,g<sub>p</sub>为该点半径为R的圆上P个等距离像素点的灰度值,p=0,…,P‑1,这些灰度值对应的是对称圆形邻域,当g<sub>p</sub>≥g<sub>c</sub>时,s(g<sub>p</sub>‑g<sub>c</sub>)取1,当g<sub>p</sub><g<sub>c</sub>时,s(g<sub>p</sub>‑g<sub>c</sub>)取0,公式(1)中不同的R代表不同的尺度,对于每个子块不同半径内不同尺度的LBP值,统计L种LBP模式的统计直方图,即统计出每种LBP模式在整幅图像中出现的频率,然后将L种LBP模式的出现频率级联形成该子块的直方图,长度为L;将各子块多个尺度上的直方图组合起来,构成每幅表情图片的LBP特征,具体连接方式为:第m块区域的直方图表示为H<sub>m</sub>,m=1,2,...,n×n,其中n×n表示人脸表情图像分为n×n块,一幅完整图像的多尺度LBP特征表示如下:H={(H<sub>1</sub>,H<sub>2</sub>,...,H<sub>n×n</sub>)<sub>1</sub>,...(H<sub>1</sub>,H<sub>2</sub>,...,H<sub>n×n</sub>)<sub>i</sub>,...(H<sub>1</sub>,H<sub>2</sub>,...,H<sub>n×n</sub>)<sub>R</sub>}   (2)其中H为长度L*n2*R的特征向量,由R个尺度上的LBP直方图级联而成,(H<sub>1</sub>,H<sub>2</sub>,...H,<sub>n×n1</sub>、)(H<sub>1</sub>,H<sub>2</sub>,...,H<sub>n×n</sub>)<sub>i</sub>及(H<sub>1</sub>,H<sub>2</sub>,...,H<sub>n×n</sub>)<sub>R</sub>分别表示在不同的尺度下采用LBP<sub>P,R</sub>算子的图像上统计得到的LBP直方图;(3)表情词典的建立将步骤(2)中第i幅表情图片得到的LBP直方图向量H记为V<sub>i</sub>,将6*M幅训练图片的所有特征向量级联在一起,形成词典矩阵D;词典对应的表情类别向量记为S<sub>D</sub>=(s<sub>1</sub>,...,s<sub>i</sub>,...,s<sub>l</sub>),其中s<sub>i</sub>表示第i幅图片表情的类别,长度l=6*M,s<sub>i</sub>={1,2,3,4,5,6},分别代表六种基本表情;(4)稀疏系数的求解将测试数据库中的图片对应的多尺度LBP特征向量记为y,y可表示为词典D中各分量的线性组合y=Da,a为任意的稀疏系数解,其值为a=(a<sub>1</sub>,a<sub>2</sub>,...,a<sub>l</sub>),表示词典中每个单词对应的权重大小,其中对应的最优稀疏系数解为a*,根据稀疏编码的基本原则,要求a*尽可能的稀疏,则最优解为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msup><mi>a</mi><mo>*</mo></msup><mo>=</mo><munder><mrow><mi>arg</mi><mi>min</mi></mrow><mi>a</mi></munder><msub><mrow><mo>|</mo><mo>|</mo><mi>a</mi><mo>|</mo><mo>|</mo></mrow><mn>1</mn></msub><mo>,</mo><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><mi>Da</mi><mo>=</mo><mi>y</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000502868680000021.GIF" wi="1366" he="128" /></maths>a*与词典的大小一致,长度l=6*M;(5)人脸表情的识别利用步骤(4)求解出的最优稀疏系数a*,然后利用以下公式计算出测试表情图片的类别:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>S</mi><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mrow><mi>i</mi><mo>,</mo><mi>i</mi><mo>=</mo><mo>{</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mn>6</mn><mo>}</mo></mrow></munder><msub><mi>C</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>,</mo><msub><mi>s</mi><mi>j</mi></msub><mo>=</mo><mi>i</mi></mrow><mi>l</mi></munderover><msubsup><mi>a</mi><mi>j</mi><mo>*</mo></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000502868680000022.GIF" wi="1268" he="189" /></maths>其中S表示最后计算得出的测试图片的表情类别,S={1,2,3,4,5,6},C<sub>i</sub>为每类表情对应的稀疏系数累加值,i表示表情的种类,j表示不同的图片,j的范围从1到l,s<sub>j</sub>表示第j幅图片的表情类别,<img file="FDA0000502868680000023.GIF" wi="66" he="84" />表示第j幅图片对应的最优稀疏系数,通过公式(4)求解出测试数据库中表情图片的表情类别S,将测试数据库中每幅图片求解出表情类别S,即可完成大规模人脸表情的分类识别。
地址 710072 陕西省西安市友谊西路127号