一种基于有监督学概率主题模型的地点图像识别方法,申请号CN201410064526.6-传众专利搜索

发明名称	一种基于有监督学概率主题模型的地点图像识别方法
摘要	本发明涉及基于有监督学概率主题模型的地点图像识别方法，目的在于更好地解决地点图像识别中由于不同光照和角度、事物变化和运动导致的不确定问题，以及原有LDA模型中随主题数目增加图像的识别率出现过拟合现象进而影响图像的识别率的问题。所述方法包括：图像获取；图像预处理；采用SIFT对图像局部特征进行检测和描述；生成“词袋”；用“词袋”中的词对图像进行描述步骤；本发明采用基于有监督学的概率主题模型学图像的潜在主题分布；根据sLDA模型中图像的类别响应函数识别测试集中的未知地点图像。本发明用有监督学的LDA模型代替原有的LDA模型，在保证实时性的前提下，可以有效提高地点图像的识别率。
申请公布号	CN103810500B	申请公布日期	2017.04.05
申请号	CN201410064526.6	申请日期	2014.02.25
申请人	北京工业大学	发明人	杨金福;解涛;赵伟伟;李明爱;高晶钰;张济昭
分类号	G06K9/62(2006.01)I;G06K9/46(2006.01)I	主分类号	G06K9/62(2006.01)I
代理机构	北京思海天达知识产权代理有限公司 11203	代理人	张慧
主权项	一种基于有监督学习概率主题模型的地点图像识别方法，其特征在于，通过采用sLDA模型代替LDA模型识别测试集中未知的地点图像；所述方法包括以下步骤：步骤1，通过安装在机器人上的标准摄像头获取训练图像集和测试图像集；步骤2，图像预处理，将获取的图像灰度化；步骤3，采用SIFT对图像进行局部特征检测和描述；包括图像关键点检测以及将关键点表示为128维的特征描述子；步骤4，生成“词袋”；将步骤3提取的所有训练集图像的局部特征通过k‑means算法进行聚类，然后将若干聚类中心作为“词袋”中的词，建立“词袋”；步骤5，使用“词袋”中的词对图像进行描述；将训练图像集和测试图像集中的每幅图像的局部特征用“词袋”中的词进行描述，得到“词袋”中词的频数向量；步骤6，建立有监督学习的潜在主题模型；将步骤5中得到的图像的词频数向量作为输入潜在主题模型输入变量，设定潜在主题的数目，采用mean‑field variational算法对有监督学习的潜在主题模型的参数进行学习，得到图像的类别响应；步骤7，识别未知图像；图像类别为sLDA模型中响应变量达到最大期望值时类别值，用公式表示为：<maths num="0001"><math><![CDATA[<mrow><msup><mi>c</mi><mo></mo></msup><mo>=</mo><mi>arg</mi><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><mi>c</mi><mo>&Element;</mo><mo>{</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>C</mi><mo>}</mo></mrow></munder><msub><mi>E</mi><mi>q</mi></msub><mo>[</mo><msubsup><mi>η</mi><mi>c</mi><mi>T</mi></msubsup><mover><mi>z</mi><mo>&OverBar;</mo></mover><mo>]</mo><mo>=</mo><mi>arg</mi><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><mi>c</mi><mo>&Element;</mo><mo>{</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>C</mi><mo>}</mo></mrow></munder><msubsup><mi>η</mi><mi>c</mi><mi>T</mi></msubsup><mover><mi>φ</mi><mo>&OverBar;</mo></mover></mrow>]]></math><img file="FDA0001125781170000011.GIF" wi="814" he="94" /></maths>其中，c为图像类别，c为期望值最大时的类别；所述步骤6建立有监督学习的潜在主题模型的方法包括以下步骤：步骤6.1，生成图像主题分布参数；图像主题分布概率θ<sub>d</sub>的先验分布服从参数为α的Dirichlet分布，即θ<sub>d</sub>～Dir(α)；步骤6.2，生成图像特征参数；图像的第n个特征w<sub>d,n</sub>对应的主题为z<sub>d,n</sub>，z<sub>d,n</sub>服从参数为θ<sub>d</sub>的Multinomial分布，即z<sub>d,n</sub>～Mult(θ<sub>d</sub>)；图像的第n个特征w<sub>d,n</sub>在主题z<sub>d,n</sub>下的概率服从参数为<img file="FDA0001125781170000012.GIF" wi="84" he="55" />的Multinomial分布，即<img file="FDA0001125781170000013.GIF" wi="395" he="71" />步骤6.3，生成图像类别标签；图像类别c<sub>d</sub>服从参数为<img file="FDA0001125781170000014.GIF" wi="102" he="55" />的softmax回归，即<img file="FDA0001125781170000015.GIF" wi="466" he="62" />其中<img file="FDA0001125781170000021.GIF" wi="374" he="122" />softmax回归函数为<img file="FDA0001125781170000022.GIF" wi="883" he="86" />N为一幅图像特征总数，C为类别总数；第d幅图像属于类别c的概率为：<maths num="0002"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mover><mi>w</mi><mo>&RightArrow;</mo></mover><mi>d</mi></msub><mo>,</mo><mi>c</mi><mo>\|</mo><mi>α</mi><mo>,</mo><mi>π</mi><mo>,</mo><mi>η</mi><mo>)</mo></mrow><mo>=</mo><mo>&Integral;</mo><mi>p</mi><mrow><mo>(</mo><mi>θ</mi><mo>\|</mo><mi>α</mi><mo>)</mo></mrow><msub><mi>Σ</mi><mi>z</mi></msub><mrow><mo>(</mo><msubsup><mo>Π</mo><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><mi>p</mi><mo>(</mo><mrow><msub><mi>z</mi><mrow><mi>d</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>\|</mo><mi>θ</mi></mrow><mo>)</mo><mi>p</mi><mo>(</mo><mrow><msub><mover><mi>w</mi><mo>&RightArrow;</mo></mover><mi>d</mi></msub><mo>\|</mo><msub><mi>z</mi><mrow><mi>d</mi><mo>,</mo><mi>n</mi></mrow></msub><mo>,</mo><mi>π</mi></mrow><mo>)</mo><mo>)</mo></mrow><mi>p</mi><mrow><mo>(</mo><mi>c</mi><mo>\|</mo><msub><mover><mi>z</mi><mo>&RightArrow;</mo></mover><mi>d</mi></msub><mo>,</mo><mi>η</mi><mo>)</mo></mrow><mi>d</mi><mi>θ</mi></mrow>]]></math><img file="FDA0001125781170000023.GIF" wi="1438" he="87" /></maths>其中，<img file="FDA0001125781170000024.GIF" wi="58" he="63" />为第d幅图像的特征向量，c为第d幅图像的类别；在sLDA模型中，根据图像的特征信息很难计算主题概率的后验分布<img file="FDA0001125781170000025.GIF" wi="329" he="78" />因此采用mean‑field variational算法近似计算上述后验分布；Variational算法假设隐含变量的概率分布是一些相互独立变量的条件分布，然后通过最小化KL距离来近似真实的后验条件分布；mean‑field variational分布为使用mean‑field variational算法时sLDA模型中隐变量的概率分布，即<img file="FDA0001125781170000026.GIF" wi="611" he="87" />其中γ是变分Dirichlet参数，φ<sub>n</sub>是K个主题的变分多项式分布参数；用mean‑fieldvariational算法估计sLDA模型参数的方法如下：(1)估算γ和φ<sub>n</sub>；根据variational算法得到变分目标函数，即似然函数，其表达式为：<img file="FDA0001125781170000027.GIF" wi="1638" he="186" />通过最大化上述似然函数的近似下界函数L(γ,φ<sub>n</sub>；α,π,η)，计算隐变量的参数γ和φ<sub>n</sub>，使其分布在当前sLDA模型参数下尽可能逼近其真实分布，公式如下：<maths num="0003"><math><![CDATA[<mrow><mi>γ</mi><mo>=</mo><mi>α</mi><mo>+</mo><msubsup><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msub><mi>φ</mi><mi>n</mi></msub></mrow>]]></math><img file="FDA0001125781170000028.GIF" wi="310" he="79" /></maths><maths num="0004"><math><![CDATA[<mrow><msub><mi>φ</mi><mrow><mi>n</mi><mi>i</mi></mrow></msub><mo>&Proportional;</mo><msub><mi>π</mi><mrow><mi>i</mi><mo>,</mo><msub><mi>w</mi><mi>n</mi></msub></mrow></msub><mi>exp</mi><mo>[</mo><mi>ψ</mi><mrow><mo>(</mo><msub><mi>γ</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><msub><mi>η</mi><mrow><mi>c</mi><mi>i</mi></mrow></msub><mo>-</mo><msup><mrow><mo>(</mo><msup><mi>h</mi><mi>T</mi></msup><msubsup><mi>φ</mi><mi>n</mi><mrow><mi>o</mi><mi>l</mi><mi>d</mi></mrow></msubsup><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><msub><mi>h</mi><mi>i</mi></msub><mo>]</mo></mrow>]]></math><img file="FDA0001125781170000029.GIF" wi="893" he="134" /></maths>其中，i表示的是主题，c表示的是类别，<img file="FDA00011257811700000210.GIF" wi="77" he="70" />为上一次迭代过程中的φ<sub>n</sub>值，h为便于sLDA模型中参数φ<sub>n</sub>计算进而假设的参数，满足<img file="FDA00011257811700000211.GIF" wi="803" he="118" />(2)估算π和η；用γ和φ<sub>n</sub>更新π和η，公式如下：<maths num="0005"><math><![CDATA[<mrow><msub><mi>π</mi><mrow><mi>i</mi><mi>w</mi></mrow></msub><mo>&Proportional;</mo><msubsup><mi>Σ</mi><mrow><mi>d</mi><mo>=</mo><mn>1</mn></mrow><mi>D</mi></msubsup><msubsup><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>d</mi></msub></msubsup><mn>1</mn><mrow><mo>(</mo><msub><mi>w</mi><mi>n</mi></msub><mo>=</mo><mi>w</mi><mo>)</mo></mrow><msub><mi>φ</mi><mrow><mi>d</mi><mi>n</mi><mi>i</mi></mrow></msub></mrow>]]></math><img file="FDA00011257811700000212.GIF" wi="597" he="85" /></maths> η＝(E[A<sup>T</sup>A])<sup>‑1</sup>E[A]<sup>T</sup>y其中，i表示主题；y为图像类别响应函数，且满足<img file="FDA00011257811700000213.GIF" wi="210" he="71" />A是为了便于sLDA模型中参数η计算假设的参数，满足<img file="FDA0001125781170000031.GIF" wi="475" he="75" />重复上述(1)、(2)两个步骤，直至隐变量γ和φ<sub>n</sub>收敛。
地址	100124 北京市朝阳区平乐园100号