发明名称 一种基于视觉特征的无人机
摘要 本发明公开了一种基于视觉特征的无人机,包括无人机和安装在无人机上的监控装置,监控装置具体包括预处理模块、检测跟踪模块、识别输出模块,其中预处理模块包含图像转化、图像滤波、图像增强三个子模块,检测跟踪模块包含构建、丢失判别、更新三个子模块。本无人机将视频图像技术运用在无人机上,能有效监控记录恶意破坏行为,具有实时性好、定位准确、自适应能力强、图像细节保留完整和鲁棒性强等优点。
申请公布号 CN105718895A 申请公布日期 2016.06.29
申请号 CN201610045878.6 申请日期 2016.01.22
申请人 张健敏 发明人 张健敏
分类号 G06K9/00(2006.01)I;G06K9/62(2006.01)I 主分类号 G06K9/00(2006.01)I
代理机构 北京高航知识产权代理有限公司 11530 代理人 丁艳侠
主权项 一种基于视觉特征的无人机,包括无人机和安装在无人机上的监测装置,监测装置用于对无人机附近的活动进行视频图像监测,其特征是,监测装置包括预处理模块、检测跟踪模块、识别输出模块;(1)预处理模块,用于对接收到的图像进行预处理,具体包括图像转化子模块、图像滤波子模块和图像增强子模块:图像转化子模块,用于将彩色图像转化为灰度图像:<maths num="0001"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>max</mi><mrow><mo>(</mo><mi>R</mi><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>B</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo><mo>+</mo><mi>min</mi><mrow><mo>(</mo><mi>R</mi><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>B</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></mfrac><mo>+</mo><mn>2</mn><mrow><mo>(</mo><mi>max</mi><mo>(</mo><mi>R</mi><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>B</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo><mo>-</mo></mrow></mtd></mtr><mtr><mtd><mrow><mi>m</mi><mi>i</mi><mi>n</mi><mrow><mo>(</mo><mi>R</mi><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>B</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo><mo>)</mo></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000912958410000011.GIF" wi="2025" he="203" /></maths>其中,R(x,y)、G(x,y)、B(x,y)分别代表像素(x,y)处的红绿蓝强度值,H(x,y)代表坐标(x,y)处的像素灰度值;图像大小为m×n;图像滤波子模块,用于对灰度图像进行滤波:采用维纳滤波来进行一级滤除后,定义svlm图像,记为M<sub>svlm</sub>(x,y),具体定义公式为:M<sub>svlm</sub>(x,y)=a<sub>1</sub>J<sub>1</sub>(x,y)+a<sub>2</sub>J<sub>2</sub>(x,y)+a<sub>3</sub>J<sub>3</sub>(x,y)+a<sub>4</sub>J<sub>4</sub>(x,y),其中a<sub>1</sub>、a<sub>2</sub>、a<sub>3</sub>、a<sub>4</sub>为可变权值,<img file="FDA0000912958410000012.GIF" wi="315" he="111" />i=1,2,3,4;J(x,y)为经滤波后的图像;图像增强子模块:当<maths num="0002"><math><![CDATA[<mrow><mo>|</mo><mn>128</mn><mo>-</mo><mi>m</mi><mo>|</mo><mo>&gt;</mo><mroot><mrow><mo>|</mo><mi>&omega;</mi><mo>-</mo><mn>50</mn><mo>|</mo></mrow><mn>3</mn></mroot></mrow>]]></math><img file="FDA0000912958410000013.GIF" wi="510" he="83" /></maths>时,<maths num="0003"><math><![CDATA[<mrow><mi>L</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mn>255</mn><mo>&times;</mo><msup><mrow><mo>(</mo><mfrac><mrow><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow><mn>255</mn></mfrac><mo>)</mo></mrow><mrow><mi>&psi;</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></msup><mo>,</mo></mrow>]]></math><img file="FDA0000912958410000014.GIF" wi="647" he="126" /></maths>其中,L(x,y)为增强后的灰度值;ψ(x,y)是包含有局部信息的伽马校正系数,此时<img file="FDA0000912958410000015.GIF" wi="570" he="107" />α是范围为0到1的可变参数,<img file="FDA0000912958410000016.GIF" wi="366" he="107" />ω为模板尺度大小参量,尺度越大则模板中包含的邻域像素信息就越多,输入图像经过不同尺度ω<sub>i</sub>的模板,得到的图像J<sub>i</sub>将会包含不同范围的邻域信息;当<maths num="0004"><math><![CDATA[<mrow><mo>|</mo><mn>128</mn><mo>-</mo><mi>m</mi><mo>|</mo><mo>&le;</mo><mroot><mrow><mo>|</mo><mi>&omega;</mi><mo>-</mo><mn>50</mn><mo>|</mo></mrow><mn>3</mn></mroot></mrow>]]></math><img file="FDA0000912958410000017.GIF" wi="523" he="88" /></maths>且ω>50时,<maths num="0005"><math><![CDATA[<mrow><mi>L</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mn>255</mn><mo>&times;</mo><msup><mrow><mo>(</mo><mfrac><mrow><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow><mn>255</mn></mfrac><mo>)</mo></mrow><mrow><mi>&psi;</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>&times;</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mi>&omega;</mi><mo>-</mo><mn>50</mn></mrow><msup><mi>&omega;</mi><mn>2</mn></msup></mfrac><mo>)</mo></mrow></mrow></msup><mo>,</mo></mrow>]]></math><img file="FDA0000912958410000018.GIF" wi="851" he="134" /></maths>其中ψ(x,y)=ψ<sub>α</sub>(M<sub>svlm</sub>(x,y)),<img file="FDA0000912958410000019.GIF" wi="544" he="107" />m<sub>H</sub>是图像中灰度值高于128的所有像素的均值,m<sub>L</sub>是灰度值低于128的所有像素的均值,且此时m=min(m<sub>H</sub>,m<sub>L</sub>),在α值已知的情况下,计算出256个ψ校正系数作为查找表,记为<img file="FDA00009129584100000110.GIF" wi="267" he="91" />其中i为索引值,利用M<sub>svlm</sub>(x,y)的灰度值作为索引,根据ψ(x,y)=ψ<sub>α</sub>(M<sub>svlm</sub>(x,y))快速获得图像中每个像素的伽马校正系数<img file="FDA00009129584100000111.GIF" wi="383" he="99" />为模板修正系数;(2)检测跟踪模块,具体包括构建子模块、丢失判别子模块和更新子模块:构建子模块,用于视觉字典的构建:在初始帧获取跟踪目标的位置和尺度,在其周围选取正负样本训练跟踪器,将跟踪结果作为训练集X={x<sub>1</sub>,x<sub>2</sub>,......x<sub>N</sub>}<sup>T</sup>;并对训练集中的每幅目标图像提取128维的SIFT特征<img file="FDA0000912958410000021.GIF" wi="237" he="126" />其中S<sub>t</sub>表示训练集中第t幅目标图像中SIFT特征的个数;跟踪N帧以后,通过聚类算法将这些特征划分为K个簇,每个簇的中心构成特征单词,记为<img file="FDA0000912958410000022.GIF" wi="186" he="75" />能够提取到的特征总量<img file="FDA0000912958410000023.GIF" wi="298" he="75" />其中K<<F<sub>N</sub>,且<img file="FDA0000912958410000024.GIF" wi="309" he="99" />视觉字典构建好以后,每幅训练图像表示为特征包的形式,用于表示视觉字典中特征单词出现的频率,用直方图h(x<sub>t</sub>)表示,h(x<sub>t</sub>)通过以下方式获取:将一幅训练图像X<sub>t</sub>中的每一个特征f<sub>s</sub><sup>(t)</sup>向视觉字典投影,用投影距离最短的特征单词表示该特征,对所有特征投影完毕后,统计每个特征单词的出现频率,并归一化得到训练图像X<sub>t</sub>的特征直方图h(x<sub>t</sub>);丢失判别子模块,用于判别目标的丢失与否:当新一帧图像到来时,从K个直方图柱中随机选取Z&lt;K个直方图柱,且Z=4,形成新的大小为Z的子直方图h<sup>(z)</sup>(x<sub>t</sub>),子直方图的个数最多为<img file="FDA0000912958410000026.GIF" wi="176" he="75" />个;计算候选目标区域和训练集中某个目标区域对应子直方图的相似性Ф<sub>t_z</sub>,<img file="FDA0000912958410000027.GIF" wi="651" he="103" />其中t=1,2,...,N,z=1,2,...,N<sub>s</sub>,然后计算总体相似性Ф<sub>t</sub>=1‑Π<sub>z</sub>(1‑Ф<sub>t_z</sub>);候选目标区域与目标的相似性用Ф=max{Ф<sub>t</sub>,t}表示,则目标丢失判断式为:<maths num="0006"><math><![CDATA[<mrow><mi>u</mi><mo>=</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>n</mi><mrow><mo>(</mo><mi>&Phi;</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mrow><mi>&Phi;</mi><mo>&GreaterEqual;</mo><mi>g</mi><mi>s</mi></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>&Phi;</mi><mo>&lt;</mo><mi>g</mi><mi>s</mi></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000912958410000028.GIF" wi="642" he="155" /></maths>其中gs为人为设定的判失阀值;当u=1时目标被稳定跟踪,当u=0时,目标丢失;当目标丢失时,定义仿射变换模型:<maths num="0007"><math><![CDATA[<mrow><mfenced open = "(" close = ")"><mtable><mtr><mtd><msub><mi>x</mi><mi>t</mi></msub></mtd></mtr><mtr><mtd><msub><mi>y</mi><mi>t</mi></msub></mtd></mtr></mtable></mfenced><mo>=</mo><mfenced open = "(" close = ")"><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><msub><mi>&mu;</mi><mn>1</mn></msub><mo>&times;</mo><mi>&theta;</mi><mo>)</mo></mrow></mrow></mtd><mtd><mrow><mi>s</mi><mo>.</mo><mi>s</mi><mi>i</mi><mi>n</mi><mrow><mo>(</mo><msub><mi>&mu;</mi><mn>1</mn></msub><mo>&times;</mo><mi>&theta;</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>-</mo><mi>s</mi><mo>.</mo><mi>s</mi><mi>i</mi><mi>n</mi><mrow><mo>(</mo><msub><mi>&mu;</mi><mn>1</mn></msub><mo>&times;</mo><mi>&theta;</mi><mo>)</mo></mrow></mrow></mtd><mtd><mrow><mi>s</mi><mo>.</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><msub><mi>&mu;</mi><mn>1</mn></msub><mo>&times;</mo><mi>&theta;</mi><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><mfenced open = "(" close = ")"><mtable><mtr><mtd><msub><mi>x</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mtd></mtr><mtr><mtd><msub><mi>y</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mtd></mtr></mtable></mfenced><mo>+</mo><msub><mi>&mu;</mi><mn>2</mn></msub><mfenced open = "(" close = ")"><mtable><mtr><mtd><mi>e</mi></mtd></mtr><mtr><mtd><mi>f</mi></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000912958410000029.GIF" wi="1008" he="107" /></maths>其中(x<sub>t</sub>,y<sub>t</sub>)和(x<sub>t‑1</sub>,y<sub>t‑1</sub>)分别为当前帧目标中某个SITF特征点的位置坐标和前一个帧目标中对应匹配特征点的位置坐标,两者均为已知量;s为尺度系数,θ为旋转系数,e和f代表了平移系数,<maths num="0008"><math><![CDATA[<mrow><msub><mi>&mu;</mi><mn>1</mn></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mn>1</mn><mo>-</mo><mfrac><mrow><mo>|</mo><mi>T</mi><mo>-</mo><msub><mi>T</mi><mn>0</mn></msub><mo>|</mo></mrow><mrow><mn>1000</mn><msub><mi>T</mi><mn>0</mn></msub></mrow></mfrac></mrow></mtd><mtd><mrow><mi>T</mi><mo>&GreaterEqual;</mo><msub><mi>T</mi><mn>0</mn></msub></mrow></mtd></mtr><mtr><mtd><mrow><mn>1</mn><mo>+</mo><mfrac><mrow><mo>|</mo><mi>T</mi><mo>-</mo><msub><mi>T</mi><mn>0</mn></msub><mo>|</mo></mrow><mrow><mn>1000</mn><msub><mi>T</mi><mn>0</mn></msub></mrow></mfrac></mrow></mtd><mtd><mrow><mi>T</mi><mo>&lt;</mo><msub><mi>T</mi><mn>0</mn></msub></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA00009129584100000210.GIF" wi="644" he="215" /></maths>为温度旋转修正系数,<maths num="0009"><math><![CDATA[<mrow><msub><mi>&mu;</mi><mn>2</mn></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><msqrt><mrow><mn>1</mn><mo>-</mo><mfrac><mrow><mo>|</mo><mi>T</mi><mo>-</mo><msub><mi>T</mi><mn>0</mn></msub><mo>|</mo></mrow><mrow><mn>1000</mn><msub><mi>T</mi><mn>0</mn></msub></mrow></mfrac></mrow></msqrt></mtd><mtd><mrow><mi>T</mi><mo>&GreaterEqual;</mo><msub><mi>T</mi><mn>0</mn></msub></mrow></mtd></mtr><mtr><mtd><msqrt><mrow><mn>1</mn><mo>+</mo><mfrac><mrow><mo>|</mo><mi>T</mi><mo>-</mo><msub><mi>T</mi><mn>0</mn></msub><mo>|</mo></mrow><mrow><mn>1000</mn><msub><mi>T</mi><mn>0</mn></msub></mrow></mfrac></mrow></msqrt></mtd><mtd><mrow><mi>T</mi><mo>&lt;</mo><msub><mi>T</mi><mn>0</mn></msub></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA00009129584100000211.GIF" wi="648" he="266" /></maths>为温度平移修正系数,μ<sub>1</sub>和μ<sub>2</sub>用于修正因为环境温度偏差造成的图像旋转和平移误差,T<sub>0</sub>为人为设定的标准温度,设为20度,T为由温度传感器实时监测得到的温度值;采用Ransac估计算法求取仿射变换模型的参数,最后在新的尺度s和旋转系数θ下采集正负样本,更新分类器;更新子模块,用于视觉字典的更新:在每帧图像获得目标位置以后,根据仿射变换参数的计算结果,收集所有满足结果参数的SIFT特征点<img file="FDA0000912958410000031.GIF" wi="203" he="87" />经过F=3帧以后,获得新的特征点集<img file="FDA0000912958410000032.GIF" wi="198" he="87" />其中S<sub>t‑F</sub>代表了从F帧图像中得到的总特征点数;利用下式对新旧特征点重新进行K聚类:<img file="FDA0000912958410000033.GIF" wi="231" he="75" /><img file="FDA0000912958410000034.GIF" wi="818" he="88" />其中<img file="FDA0000912958410000035.GIF" wi="165" he="78" />表示新的视觉字典,视觉字典的大小保持不变;<img file="FDA0000912958410000036.GIF" wi="209" he="70" />是遗忘因子,表明了旧字典所占的比重,<img file="FDA0000912958410000037.GIF" wi="47" he="59" />越小,新特征对目标丢失的判断贡献越多,取<img file="FDA0000912958410000038.GIF" wi="179" he="64" />(3)识别输出模块,用于图像的识别和输出:在待识别的图像序列中利用跟踪算法获取目标区域,将目标区域映射到已知训练数据形成的子空间,计算子空间中目标区域与训练数据之间的距离,获得相似性度量,判定目标类别,并输出识别结果。
地址 315200 浙江省宁波市镇海区隧道北路555号