基于多尺度LBP和稀疏编码的大规模人脸表情识别方法,申请号CN201410195403.6-传众专利搜索

发明名称	基于多尺度LBP和稀疏编码的大规模人脸表情识别方法
摘要	本发明提供了一种基于多尺度LBP和稀疏编码的大规模人脸表情识别方法，首先建立大规模的人脸表情数据库，使用随机抽样技术生成训练数据库与测试数据库，其次使用多尺度的LBP特征来表示人脸的表情特征，进而生成稀疏编码方法所需要的字典，通过对新的表情样本求解最优稀疏系数，并累加不同表情的稀疏系数来识别表情样本，本发明利用多尺度LBP特征获取鲁棒性强的特征表示方式，利用稀疏编码解决了大规模人脸表情识别中的稀疏性问题，验证了基于多尺度LBP和稀疏编码的大规模人脸表情识别方法的有效性。
申请公布号	CN103971095A	申请公布日期	2014.08.06
申请号	CN201410195403.6	申请日期	2014.05.09
申请人	西北工业大学	发明人	彭先霖;夏召强;冯晓毅;彭进业;王珺;毛晓菲;崔明辉;胡旭涛
分类号	G06K9/00(2006.01)I;G06K9/46(2006.01)I	主分类号	G06K9/00(2006.01)I
代理机构	西北工业大学专利中心 61204	代理人	顾潮琪
主权项	一种基于多尺度LBP和稀疏编码的大规模人脸表情识别方法，其特征在于包括下述步骤：(1)大规模表情数据库的建立针对每种表情，每种表情下载N<sub>1</sub>幅图片，N<sub>1</sub>为任意整数，六种表情共6N<sub>1</sub>幅图片，并通过使用AP聚类算法对每种表情图片进行聚类，人工选择出与每种表情最一致的图片聚类中心，每种表情得到N<sub>2</sub>幅图片，N<sub>2</sub>为任意整数，构成大规模人脸表情数据库，该大规模人脸表情数据库共有6N<sub>2</sub>幅表情图片；利用AdaBoost方法对大规模人脸表情数据库中的图片进行人脸检测和归一化处理；从每种表情的N<sub>2</sub>幅图片中随机抽取M幅图片作为该类表情的训练数据库，所有表情组成的训练数据库包含6M幅图片，剩余的该类表情图片作为测试数据库；(2)多尺度LBP特征提取将人脸按照水平方向和垂直方向划分为n×n等大小的子块，n为任意整数，针对每个子块分别计算其多尺度的LBP直方图，计算方法如下：每个像素点某尺度上的LBP<sub>P,R</sub>值为：<img file="FDA0000502868680000011.GIF" wi="1011" he="147" />其中，g<sub>c</sub>为像素点的灰度值，g<sub>p</sub>为该点半径为R的圆上P个等距离像素点的灰度值，p＝0，…，P‑1，这些灰度值对应的是对称圆形邻域，当g<sub>p</sub>≥g<sub>c</sub>时，s(g<sub>p</sub>‑g<sub>c</sub>)取1，当g<sub>p</sub>＜g<sub>c</sub>时，s(g<sub>p</sub>‑g<sub>c</sub>)取0，公式(1)中不同的R代表不同的尺度，对于每个子块不同半径内不同尺度的LBP值，统计L种LBP模式的统计直方图，即统计出每种LBP模式在整幅图像中出现的频率，然后将L种LBP模式的出现频率级联形成该子块的直方图，长度为L；将各子块多个尺度上的直方图组合起来，构成每幅表情图片的LBP特征，具体连接方式为：第m块区域的直方图表示为H<sub>m</sub>，m＝1,2,...,n×n，其中n×n表示人脸表情图像分为n×n块，一幅完整图像的多尺度LBP特征表示如下：H＝{(H<sub>1</sub>,H<sub>2</sub>,...,H<sub>n×n</sub>)<sub>1</sub>,...(H<sub>1</sub>,H<sub>2</sub>,...,H<sub>n×n</sub>)<sub>i</sub>,...(H<sub>1</sub>,H<sub>2</sub>,...,H<sub>n×n</sub>)<sub>R</sub>} (2)其中H为长度Ln2R的特征向量，由R个尺度上的LBP直方图级联而成，(H<sub>1</sub>,H<sub>2</sub>,...H,<sub>n×n1</sub>、)(H<sub>1</sub>,H<sub>2</sub>,...,H<sub>n×n</sub>)<sub>i</sub>及(H<sub>1</sub>,H<sub>2</sub>,...,H<sub>n×n</sub>)<sub>R</sub>分别表示在不同的尺度下采用LBP<sub>P,R</sub>算子的图像上统计得到的LBP直方图；(3)表情词典的建立将步骤(2)中第i幅表情图片得到的LBP直方图向量H记为V<sub>i</sub>，将6M幅训练图片的所有特征向量级联在一起，形成词典矩阵D；词典对应的表情类别向量记为S<sub>D</sub>＝(s<sub>1</sub>,...,s<sub>i</sub>,...,s<sub>l</sub>)，其中s<sub>i</sub>表示第i幅图片表情的类别，长度l＝6M，s<sub>i</sub>＝{1，2，3，4，5，6}，分别代表六种基本表情；(4)稀疏系数的求解将测试数据库中的图片对应的多尺度LBP特征向量记为y，y可表示为词典D中各分量的线性组合y＝Da，a为任意的稀疏系数解，其值为a＝(a<sub>1</sub>,a<sub>2</sub>,...,a<sub>l</sub>)，表示词典中每个单词对应的权重大小，其中对应的最优稀疏系数解为a，根据稀疏编码的基本原则，要求a尽可能的稀疏，则最优解为：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msup><mi>a</mi><mo></mo></msup><mo>=</mo><munder><mrow><mi>arg</mi><mi>min</mi></mrow><mi>a</mi></munder><msub><mrow><mo>\|</mo><mo>\|</mo><mi>a</mi><mo>\|</mo><mo>\|</mo></mrow><mn>1</mn></msub><mo>,</mo><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo><mi>Da</mi><mo>=</mo><mi>y</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000502868680000021.GIF" wi="1366" he="128" /></maths>a与词典的大小一致，长度l＝6M；(5)人脸表情的识别利用步骤(4)求解出的最优稀疏系数a，然后利用以下公式计算出测试表情图片的类别：<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>S</mi><mo>=</mo><munder><mrow><mi>arg</mi><mi>max</mi></mrow><mrow><mi>i</mi><mo>,</mo><mi>i</mi><mo>=</mo><mo>{</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mn>6</mn><mo>}</mo></mrow></munder><msub><mi>C</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>,</mo><msub><mi>s</mi><mi>j</mi></msub><mo>=</mo><mi>i</mi></mrow><mi>l</mi></munderover><msubsup><mi>a</mi><mi>j</mi><mo></mo></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000502868680000022.GIF" wi="1268" he="189" /></maths>其中S表示最后计算得出的测试图片的表情类别，S＝{1,2,3,4,5,6}，C<sub>i</sub>为每类表情对应的稀疏系数累加值，i表示表情的种类，j表示不同的图片，j的范围从1到l，s<sub>j</sub>表示第j幅图片的表情类别，<img file="FDA0000502868680000023.GIF" wi="66" he="84" />表示第j幅图片对应的最优稀疏系数，通过公式(4)求解出测试数据库中表情图片的表情类别S，将测试数据库中每幅图片求解出表情类别S，即可完成大规模人脸表情的分类识别。
地址	710072 陕西省西安市友谊西路127号