发明名称 一种基于多尺度卷积神经网络的交通场景分类方法
摘要 本发明公开了一种交通场景多目标分类方法,包括以下步骤:提取基于多尺度卷积神经网络的隐性特征;获取最优覆盖分割树。本发明在实现交通场景分类的过程中,采用多尺度卷积神经网络,通过对原始图像在不同尺度上有效提取具有不变性的优秀隐性特征,相比于单一尺度的卷积神经网络,实现了图像更加丰富有效特征信息的获取。本发明通过将卷积神经网络提取的有效信息与图像的原始分割树结合,形成最优纯度代价树,并进行最优纯度的覆盖,实现了获得更加清晰的目标轮廓,增加了分类的准确性。本发明通过将RGB‑D作为卷积神经网络输入,相比传统RGB卷积神经网络输入,训练的特征增加了深度信息,实现了输入图像更加精确的分类。
申请公布号 CN105956532A 申请公布日期 2016.09.21
申请号 CN201610261849.3 申请日期 2016.04.25
申请人 大连理工大学 发明人 李琳辉;连静;李红挪;刘爽;钱波;周雅夫;孙延秋;矫翔
分类号 G06K9/00(2006.01)I;G06K9/62(2006.01)I;G06N3/08(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 大连东方专利代理有限责任公司 21212 代理人 李洪福
主权项 一种基于多尺度卷积神经网络的交通场景分类方法,其特征在于:包括以下步骤:A、提取基于多尺度卷积神经网络的隐性特征A1、基于车载RGB‑D相机,获取车辆前方交通场景的RGB‑D图像,即彩色图(1)和深度图(2),形成四通道拉普拉斯金字塔(4)图像作为深度学习算法的数据输入;同时,基于图像最小生成树分割,利用经典的区域融合方法,以交通场景中RGB‑D图像为输入,构造具有层级结构的原始分割树(3);A2、为有效提取并融合四通道拉普拉斯金字塔(4)图像不同尺度上的有效信息,处理四通道拉普拉斯金字塔(4)图像的卷积神经网络模型为多尺度结构,四通道拉普拉斯金字塔(4)图像在多尺度卷积神经网络模型中以金字塔的形式存储;每一个比例的四通道拉普拉斯金字塔(4)图像层建立一个与其他尺度图像共享权重参数的多级卷积神经网络,每级卷积神经网络包含卷积层及特征池化层,经过卷积和池化过程,获得卷积神经网络的多尺度特征图(5);对同一个尺度上的卷积神经网络:卷积过程中,每个特征图只有一个卷积核与之对应并与之进行卷积运算,前一层特征图通过一个可训练卷积核进行卷积,其结果再通过一个激活函数形成下一层特征图;池化过程中,池化层中的每个特征图都分别和卷积层中的特征图一一对应,通过感受野对卷积层进行抽样,选取局部感受野中值最大的点;对不同尺度上的卷积神经网络,在每一个尺度上相对应的卷积层中使用相同的卷积核,相对应的池化层中使用相同的池化函数,并且使用相同的权重参数;大尺度的特征图反应原始图像的细节,即局部信息,小尺度的特征图反应原始图像各部分整体信息;设F<sub>1</sub>、F<sub>2</sub>...F<sub>N</sub>分别代表不同尺度卷积神经网络经过卷积、池化后的特征图,其中,F<sub>1</sub>的大小即为原始图像的大小;其公式如下式:f<sub>S</sub>(X<sub>S</sub>,θ<sub>S</sub>)=W<sub>L</sub>H<sub>L‑1</sub> s=1,2,...,NH<sub>l</sub>=pool(tanh(W<sub>l</sub>H<sub>l‑1</sub>+b<sub>l</sub>)) l=1,2,...,L其中,f<sub>S</sub>是尺度为s的卷积神经网络,X<sub>S</sub>是尺度为s的四通道拉普拉斯金字塔(4)输入图像,θ<sub>S</sub>是尺度为s的卷积神经网络模型参数,N为多尺度卷积神经网络总的尺度数量,L为卷积神经网络的总层数,W<sub>l</sub>为Toeplitz矩阵,H<sub>l</sub>为第l层的特征图,pool为池化操作,tanh为激活函数,b<sub>l</sub>为偏置;A3、对卷积池化后与F<sub>1</sub>不同尺度的特征图F<sub>2</sub>,F<sub>3</sub>,...,F<sub>N</sub>进行上采样,使不同尺度上卷积池化后的特征图像大小变为与F<sub>1</sub>具有相同尺寸的上采样操作输出特征图,形成包含不同尺度上有效信息且尺度相同的特征图集合F;其公式如下式:F=[F<sub>1</sub>,u(F<sub>2</sub>),...,u(F<sub>N</sub>)]其中,F为N个尺度上采样操作后的特征图集合,F<sub>s</sub>为多尺度卷积神经网络经卷积池化后尺度为s的未进行上采样操作的特征图,尺度s的取值范围为s=1,2,...,N,u为上采样函数;A4、基于卷积神经网络上采样操作输出的包含不同尺度上有效信息的特征图集合,对每一个分割树节点对应原始图像位置的特征向量,使用最大池化函数对其进行特征聚合,生成每个节点对应的聚合特征向量组(6);B、获取最优覆盖分割树(9)B1、将交通场景图像中的物体分为七类:第一类为车辆,第二类为行人,第三类为道路,第四类为交通标志,第五类为建筑物,第六类为天空,第七类为树木;采用神经网络分类器(7)进行聚合特征向量组(6)的分类,获得每个节点的类别分布;其中神经网络分类器(7)是一个两层的神经网络模型,输入为聚合特征向量组(6),输出为分割树节点代表原始图像中所属类别,神经网络分类器(7)模型的网络参数通过神经网络分类器(7)训练获得;同时,定义类别分布混乱度函数作为覆盖该节点的纯度代价函数,得出覆盖该节点的代价值,代价值越小,表明该节点的纯度越高,越倾向于将该节点覆盖;至此,构造出分类纯度代价树(8);分类纯度代价函数公式如下:k<sub>i</sub>=argmin(Z<sub>i</sub>)i=1,2,...,M其中,Z<sub>i</sub>为分割树第i个节点的类别分布代价值,k<sub>i</sub>为反映分割树第i个节点类别的指标,argmin()为函数获得使k<sub>i</sub>最小的Z<sub>i</sub>的值,M为分割树的节点个数;B2、从分类纯度代价树(8)的每个叶子节点出发,寻找其至根节点路径中使纯度代价函数最优的节点,由这些最优节点组成的集合将形成涵盖整幅原始图像的最优覆盖分割树(9),实现轮廓清晰的交通场景多目标分类。
地址 116024 辽宁省大连市高新园区凌工路2号