主权项 |
一种基于深度学习与强化学习的车辆识别方法,其特征在于,包括以下步骤:(1)、图像预处理从车辆样本库中提取车辆图像样本,再将提取的车辆图像样本转换为灰度图,并归一化,再对归一化后的每一幅车辆图像样本添加数值标签,即:不含车辆的图像添加数值“0”、含小汽车的图像添加数值“1”、含卡车的图像添加数值“2”、含大巴车的图像添加数值“3”;(2)、计算第t个车辆图像样本的期望最大回报值(2.1)、将第t个车辆图像样本按照原始像素值组成的行向量x<sub>t</sub>,对应的数值标签表述为a<sub>t</sub>,a<sub>t</sub>∈[0,3];(2.2)、按照Q‑学习理论,计算出第t个车辆图像样本的未来回报r<sub>t</sub>为:<maths num="0001"><math><![CDATA[<mrow><msub><mi>r</mi><mi>t</mi></msub><mo>=</mo><msubsup><mi>Σ</mi><mrow><msup><mi>t</mi><mo>′</mo></msup><mo>=</mo><mi>t</mi></mrow><mi>T</mi></msubsup><msup><mi>γ</mi><mrow><msup><mi>t</mi><mo>′</mo></msup><mo>-</mo><mi>t</mi></mrow></msup><msub><mi>r</mi><msup><mi>t</mi><mo>′</mo></msup></msub></mrow>]]></math><img file="FDA0001063528670000011.GIF" wi="342" he="95" /></maths>其中,T是车辆图像样本的总量,γ<sup>t′‑t</sup>表示第t个样本对t′个样本的奖励折扣系数;(2.3)、利用最优动作‑值函数Q<sup>*</sup>(x,a)计算出第t个车辆图像样本的期望最大回报值;Q<sub>t</sub><sup>*</sup>(x<sub>t</sub>,a<sub>t</sub>)=max<sub>π</sub>E[r<sub>t</sub>|x<sub>t</sub>=x,a<sub>t</sub>=a,π]其中,x泛指车辆图像样本,a泛指数值标签,π是车辆图像样本和数值标签的映射函数,通过选择不同的数值标签a<sub>t</sub>∈a来计算奖励的期,期望值最大时对应的数值标签即为该车辆图像样本的数值标签;(3)、构建深度学习网络的权值更新方程(3.1)、计算第t个车辆图像样本的目标输出y<maths num="0002"><math><![CDATA[<mrow><msub><mi>y</mi><mi>t</mi></msub><mo>=</mo><mi>E</mi><mo>[</mo><msub><mi>r</mi><mi>t</mi></msub><mo>+</mo><msub><mi>γmax</mi><msub><mi>a</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></msub><msubsup><mi>Q</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>*</mo></msubsup><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>a</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>;</mo><msub><mi>θ</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mo>|</mo><mi>x</mi><mo>,</mo><mi>a</mi><mo>]</mo></mrow>]]></math><img file="FDA0001063528670000012.GIF" wi="870" he="70" /></maths>其中,θ<sub>t‑1</sub>表示第t‑1个图像样本时的权值参数,γ为折扣系数;(3.2)、通过最小化损失函数L<sub>t</sub>(θ<sub>t</sub>)来更新深度学习网络的权值参数<maths num="0003"><math><![CDATA[<mrow><msub><mi>L</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>θ</mi><mi>t</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>E</mi><mrow><msub><mi>x</mi><mi>t</mi></msub><mo>,</mo><msub><mi>a</mi><mi>t</mi></msub><mo>~</mo><mi>ρ</mi><mrow><mo>(</mo><mo>·</mo><mo>)</mo></mrow></mrow></msub><mo>[</mo><msup><mrow><mo>(</mo><msub><mi>y</mi><mi>t</mi></msub><mo>-</mo><msubsup><mi>Q</mi><mi>t</mi><mo>*</mo></msubsup><mo>(</mo><mrow><msub><mi>x</mi><mi>t</mi></msub><mo>,</mo><msub><mi>a</mi><mi>t</mi></msub><mo>;</mo><msub><mi>θ</mi><mi>t</mi></msub></mrow><mo>)</mo><mo>)</mo></mrow><mn>2</mn></msup><mo>]</mo></mrow>]]></math><img file="FDA0001063528670000013.GIF" wi="758" he="78" /></maths>其中,ρ(x,a)是图像样本x和标签a的概率分布,E[·]为求期望;(3.3)、损失函数L<sub>t</sub>(θ<sub>t</sub>)对权重θ<sub>t</sub>求导,得到深度学习网络的权值更新方程,并更新权值<maths num="0004"><math><![CDATA[<mrow><msub><mo>▿</mo><msub><mi>θ</mi><mi>t</mi></msub></msub><msub><mi>L</mi><mi>t</mi></msub><mrow><mo>(</mo><msub><mi>θ</mi><mi>t</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mi>E</mi><mrow><msub><mi>x</mi><mi>t</mi></msub><mo>,</mo><msub><mi>a</mi><mi>t</mi></msub><mo>~</mo><mi>ρ</mi><mrow><mo>(</mo><mo>·</mo><mo>)</mo></mrow></mrow></msub><mo>[</mo><mrow><mo>(</mo><msub><mi>r</mi><mi>t</mi></msub><mo>+</mo><msub><mi>γmax</mi><msub><mi>a</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></msub><msubsup><mi>Q</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>*</mo></msubsup><mo>(</mo><mrow><msub><mi>x</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>a</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>;</mo><msub><mi>θ</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mo>)</mo><mo>-</mo><msubsup><mi>Q</mi><mi>t</mi><mo>*</mo></msubsup><mo>(</mo><mrow><msub><mi>x</mi><mi>t</mi></msub><mo>,</mo><msub><mi>a</mi><mi>t</mi></msub><mo>;</mo><msub><mi>θ</mi><mi>t</mi></msub></mrow><mo>)</mo><mo>)</mo></mrow><msub><mo>▿</mo><msub><mi>θ</mi><mi>t</mi></msub></msub><msubsup><mi>Q</mi><mi>t</mi><mo>*</mo></msubsup><mo>(</mo><mrow><msub><mi>x</mi><mi>t</mi></msub><mo>,</mo><msub><mi>a</mi><mi>t</mi></msub><mo>;</mo><msub><mi>θ</mi><mi>t</mi></msub></mrow><mo>)</mo><mo>]</mo></mrow>]]></math><img file="FDA0001063528670000021.GIF" wi="1645" he="70" /></maths>其中,<img file="FDA0001063528670000022.GIF" wi="129" he="77" />表示括号内式子对权重θ<sub>t</sub>的求导数;(4)、训练深度学习网络(4.1)、将车辆样本库中的车辆图像样本作为训练样本,将训练样本分为N份,且每一个训练样本均处理成行向量x<sub>t</sub>,并作为深度学习网络的输入,设置四个输出神经元;(4.2)、根据先验知识确定出训练样本中车辆类别,再以第一份训练样本的行向量x<sub>t</sub>为输入,输出分别为“1000”,样本中不含车辆;输出为“0100”,样本中为小汽车;输出为“0010”,样本中为卡车;输出为“0001”,样本中为大巴车;通过权值更新方程调节深度学习网络模型中的权值,第一次训练深度学习网络;(4.3)、找出第一份训练样本中实际输出与先验知识不同的训练样本,设共找出n个不同的训练样本,再将该n个训练样本分别进行逆时针旋转2<sup>°</sup>以及加入σ=0.2的高斯噪音;(4.4)、在第二份训练样本中随机抽取出n个训练样本,并用步骤(4.3)中处理后的n个训练样本补齐到第二份训练样本中,再用新得到的第二份训练样本按照步骤(4.2)所述方法进行第二次深度学习网络的训练;(4.5)、以此类推,直到第N份训练样本完成深度学习网络的训练,得到最终的深度学习网络;(5)、利用训练好的深度学习网络来识别车辆将待检测的车辆样本图像处理成行向量x<sub>t</sub>,再输入到训练完毕的深度学习网络,根据深度学习网络的输出结果识别出图像中的车辆情况。 |