一种基于视觉特征的无人机,申请号CN201610045878.6-传众专利搜索

发明名称	一种基于视觉特征的无人机
摘要	本发明公开了一种基于视觉特征的无人机，包括无人机和安装在无人机上的监控装置，监控装置具体包括预处理模块、检测跟踪模块、识别输出模块，其中预处理模块包含图像转化、图像滤波、图像增强三个子模块，检测跟踪模块包含构建、丢失判别、更新三个子模块。本无人机将视频图像技术运用在无人机上，能有效监控记录恶意破坏行为，具有实时性好、定位准确、自适应能力强、图像细节保留完整和鲁棒性强等优点。
申请公布号	CN105718895A	申请公布日期	2016.06.29
申请号	CN201610045878.6	申请日期	2016.01.22
申请人	张健敏	发明人	张健敏
分类号	G06K9/00(2006.01)I;G06K9/62(2006.01)I	主分类号	G06K9/00(2006.01)I
代理机构	北京高航知识产权代理有限公司 11530	代理人	丁艳侠
主权项	一种基于视觉特征的无人机，包括无人机和安装在无人机上的监测装置，监测装置用于对无人机附近的活动进行视频图像监测，其特征是，监测装置包括预处理模块、检测跟踪模块、识别输出模块；(1)预处理模块,用于对接收到的图像进行预处理，具体包括图像转化子模块、图像滤波子模块和图像增强子模块：图像转化子模块,用于将彩色图像转化为灰度图像:<maths num="0001"><math><![CDATA[<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>max</mi><mrow><mo>(</mo><mi>R</mi><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>B</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo><mo>+</mo><mi>min</mi><mrow><mo>(</mo><mi>R</mi><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>B</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></mfrac><mo>+</mo><mn>2</mn><mrow><mo>(</mo><mi>max</mi><mo>(</mo><mi>R</mi><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>B</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo><mo>-</mo></mrow></mtd></mtr><mtr><mtd><mrow><mi>m</mi><mi>i</mi><mi>n</mi><mrow><mo>(</mo><mi>R</mi><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>G</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mi>B</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo><mo>)</mo></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0000912958410000011.GIF" wi="2025" he="203" /></maths>其中，R(x,y)、G(x,y)、B(x,y)分别代表像素(x,y)处的红绿蓝强度值，H(x,y)代表坐标(x,y)处的像素灰度值；图像大小为m×n；图像滤波子模块，用于对灰度图像进行滤波：采用维纳滤波来进行一级滤除后，定义svlm图像，记为M<sub>svlm</sub>(x，y)，具体定义公式为：M<sub>svlm</sub>(x，y)＝a<sub>1</sub>J<sub>1</sub>(x，y)+a<sub>2</sub>J<sub>2</sub>(x，y)+a<sub>3</sub>J<sub>3</sub>(x，y)+a<sub>4</sub>J<sub>4</sub>(x，y)，其中a<sub>1</sub>、a<sub>2</sub>、a<sub>3</sub>、a<sub>4</sub>为可变权值，<img file="FDA0000912958410000012.GIF" wi="315" he="111" />i＝1，2，3，4；J(x，y)为经滤波后的图像；图像增强子模块：当<maths num="0002"><math><![CDATA[<mrow><mo>\|</mo><mn>128</mn><mo>-</mo><mi>m</mi><mo>\|</mo><mo>></mo><mroot><mrow><mo>\|</mo><mi>ω</mi><mo>-</mo><mn>50</mn><mo>\|</mo></mrow><mn>3</mn></mroot></mrow>]]></math><img file="FDA0000912958410000013.GIF" wi="510" he="83" /></maths>时，<maths num="0003"><math><![CDATA[<mrow><mi>L</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mn>255</mn><mo>×</mo><msup><mrow><mo>(</mo><mfrac><mrow><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow><mn>255</mn></mfrac><mo>)</mo></mrow><mrow><mi>ψ</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></msup><mo>,</mo></mrow>]]></math><img file="FDA0000912958410000014.GIF" wi="647" he="126" /></maths>其中，L(x,y)为增强后的灰度值；ψ(x，y)是包含有局部信息的伽马校正系数，此时<img file="FDA0000912958410000015.GIF" wi="570" he="107" />α是范围为0到1的可变参数，<img file="FDA0000912958410000016.GIF" wi="366" he="107" />ω为模板尺度大小参量，尺度越大则模板中包含的邻域像素信息就越多，输入图像经过不同尺度ω<sub>i</sub>的模板，得到的图像J<sub>i</sub>将会包含不同范围的邻域信息；当<maths num="0004"><math><![CDATA[<mrow><mo>\|</mo><mn>128</mn><mo>-</mo><mi>m</mi><mo>\|</mo><mo>≤</mo><mroot><mrow><mo>\|</mo><mi>ω</mi><mo>-</mo><mn>50</mn><mo>\|</mo></mrow><mn>3</mn></mroot></mrow>]]></math><img file="FDA0000912958410000017.GIF" wi="523" he="88" /></maths>且ω＞50时，<maths num="0005"><math><![CDATA[<mrow><mi>L</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mn>255</mn><mo>×</mo><msup><mrow><mo>(</mo><mfrac><mrow><mi>H</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow><mn>255</mn></mfrac><mo>)</mo></mrow><mrow><mi>ψ</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>×</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mfrac><mrow><mi>ω</mi><mo>-</mo><mn>50</mn></mrow><msup><mi>ω</mi><mn>2</mn></msup></mfrac><mo>)</mo></mrow></mrow></msup><mo>,</mo></mrow>]]></math><img file="FDA0000912958410000018.GIF" wi="851" he="134" /></maths>其中ψ(x，y)＝ψ<sub>α</sub>(M<sub>svlm</sub>(x，y))，<img file="FDA0000912958410000019.GIF" wi="544" he="107" />m<sub>H</sub>是图像中灰度值高于128的所有像素的均值，m<sub>L</sub>是灰度值低于128的所有像素的均值，且此时m＝min(m<sub>H</sub>，m<sub>L</sub>)，在α值已知的情况下，计算出256个ψ校正系数作为查找表，记为<img file="FDA00009129584100000110.GIF" wi="267" he="91" />其中i为索引值，利用M<sub>svlm</sub>(x，y)的灰度值作为索引，根据ψ(x，y)＝ψ<sub>α</sub>(M<sub>svlm</sub>(x，y))快速获得图像中每个像素的伽马校正系数<img file="FDA00009129584100000111.GIF" wi="383" he="99" />为模板修正系数；(2)检测跟踪模块，具体包括构建子模块、丢失判别子模块和更新子模块：构建子模块，用于视觉字典的构建：在初始帧获取跟踪目标的位置和尺度，在其周围选取正负样本训练跟踪器，将跟踪结果作为训练集X＝{x<sub>1</sub>，x<sub>2</sub>，......x<sub>N</sub>}<sup>T</sup>；并对训练集中的每幅目标图像提取128维的SIFT特征<img file="FDA0000912958410000021.GIF" wi="237" he="126" />其中S<sub>t</sub>表示训练集中第t幅目标图像中SIFT特征的个数；跟踪N帧以后，通过聚类算法将这些特征划分为K个簇，每个簇的中心构成特征单词，记为<img file="FDA0000912958410000022.GIF" wi="186" he="75" />能够提取到的特征总量<img file="FDA0000912958410000023.GIF" wi="298" he="75" />其中K＜＜F<sub>N</sub>，且<img file="FDA0000912958410000024.GIF" wi="309" he="99" />视觉字典构建好以后，每幅训练图像表示为特征包的形式，用于表示视觉字典中特征单词出现的频率，用直方图h(x<sub>t</sub>)表示，h(x<sub>t</sub>)通过以下方式获取：将一幅训练图像X<sub>t</sub>中的每一个特征f<sub>s</sub><sup>(t)</sup>向视觉字典投影，用投影距离最短的特征单词表示该特征，对所有特征投影完毕后，统计每个特征单词的出现频率，并归一化得到训练图像X<sub>t</sub>的特征直方图h(x<sub>t</sub>)；丢失判别子模块，用于判别目标的丢失与否：当新一帧图像到来时，从K个直方图柱中随机选取Z<K个直方图柱，且Z＝4，形成新的大小为Z的子直方图h<sup>(z)</sup>(x<sub>t</sub>)，子直方图的个数最多为<img file="FDA0000912958410000026.GIF" wi="176" he="75" />个；计算候选目标区域和训练集中某个目标区域对应子直方图的相似性Ф<sub>t_z</sub>，<img file="FDA0000912958410000027.GIF" wi="651" he="103" />其中t＝1，2，...，N，z＝1，2，...，N<sub>s</sub>，然后计算总体相似性Ф<sub>t</sub>＝1‑Π<sub>z</sub>(1‑Ф<sub>t_z</sub>)；候选目标区域与目标的相似性用Ф＝max{Ф<sub>t</sub>，t}表示，则目标丢失判断式为：<maths num="0006"><math><![CDATA[<mrow><mi>u</mi><mo>=</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>n</mi><mrow><mo>(</mo><mi>Φ</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mrow><mi>Φ</mi><mo>&GreaterEqual;</mo><mi>g</mi><mi>s</mi></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>Φ</mi><mo><</mo><mi>g</mi><mi>s</mi></mrow></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000912958410000028.GIF" wi="642" he="155" /></maths>其中gs为人为设定的判失阀值；当u＝1时目标被稳定跟踪，当u＝0时，目标丢失；当目标丢失时，定义仿射变换模型：<maths num="0007"><math><![CDATA[<mrow><mfenced open = "(" close = ")"><mtable><mtr><mtd><msub><mi>x</mi><mi>t</mi></msub></mtd></mtr><mtr><mtd><msub><mi>y</mi><mi>t</mi></msub></mtd></mtr></mtable></mfenced><mo>=</mo><mfenced open = "(" close = ")"><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><msub><mi>μ</mi><mn>1</mn></msub><mo>×</mo><mi>θ</mi><mo>)</mo></mrow></mrow></mtd><mtd><mrow><mi>s</mi><mo>.</mo><mi>s</mi><mi>i</mi><mi>n</mi><mrow><mo>(</mo><msub><mi>μ</mi><mn>1</mn></msub><mo>×</mo><mi>θ</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>-</mo><mi>s</mi><mo>.</mo><mi>s</mi><mi>i</mi><mi>n</mi><mrow><mo>(</mo><msub><mi>μ</mi><mn>1</mn></msub><mo>×</mo><mi>θ</mi><mo>)</mo></mrow></mrow></mtd><mtd><mrow><mi>s</mi><mo>.</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><msub><mi>μ</mi><mn>1</mn></msub><mo>×</mo><mi>θ</mi><mo>)</mo></mrow></mrow></mtd></mtr></mtable></mfenced><mfenced open = "(" close = ")"><mtable><mtr><mtd><msub><mi>x</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mtd></mtr><mtr><mtd><msub><mi>y</mi><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mtd></mtr></mtable></mfenced><mo>+</mo><msub><mi>μ</mi><mn>2</mn></msub><mfenced open = "(" close = ")"><mtable><mtr><mtd><mi>e</mi></mtd></mtr><mtr><mtd><mi>f</mi></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000912958410000029.GIF" wi="1008" he="107" /></maths>其中(x<sub>t</sub>，y<sub>t</sub>)和(x<sub>t‑1</sub>，y<sub>t‑1</sub>)分别为当前帧目标中某个SITF特征点的位置坐标和前一个帧目标中对应匹配特征点的位置坐标，两者均为已知量；s为尺度系数，θ为旋转系数，e和f代表了平移系数，<maths num="0008"><math><![CDATA[<mrow><msub><mi>μ</mi><mn>1</mn></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mn>1</mn><mo>-</mo><mfrac><mrow><mo>\|</mo><mi>T</mi><mo>-</mo><msub><mi>T</mi><mn>0</mn></msub><mo>\|</mo></mrow><mrow><mn>1000</mn><msub><mi>T</mi><mn>0</mn></msub></mrow></mfrac></mrow></mtd><mtd><mrow><mi>T</mi><mo>&GreaterEqual;</mo><msub><mi>T</mi><mn>0</mn></msub></mrow></mtd></mtr><mtr><mtd><mrow><mn>1</mn><mo>+</mo><mfrac><mrow><mo>\|</mo><mi>T</mi><mo>-</mo><msub><mi>T</mi><mn>0</mn></msub><mo>\|</mo></mrow><mrow><mn>1000</mn><msub><mi>T</mi><mn>0</mn></msub></mrow></mfrac></mrow></mtd><mtd><mrow><mi>T</mi><mo><</mo><msub><mi>T</mi><mn>0</mn></msub></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA00009129584100000210.GIF" wi="644" he="215" /></maths>为温度旋转修正系数，<maths num="0009"><math><![CDATA[<mrow><msub><mi>μ</mi><mn>2</mn></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><msqrt><mrow><mn>1</mn><mo>-</mo><mfrac><mrow><mo>\|</mo><mi>T</mi><mo>-</mo><msub><mi>T</mi><mn>0</mn></msub><mo>\|</mo></mrow><mrow><mn>1000</mn><msub><mi>T</mi><mn>0</mn></msub></mrow></mfrac></mrow></msqrt></mtd><mtd><mrow><mi>T</mi><mo>&GreaterEqual;</mo><msub><mi>T</mi><mn>0</mn></msub></mrow></mtd></mtr><mtr><mtd><msqrt><mrow><mn>1</mn><mo>+</mo><mfrac><mrow><mo>\|</mo><mi>T</mi><mo>-</mo><msub><mi>T</mi><mn>0</mn></msub><mo>\|</mo></mrow><mrow><mn>1000</mn><msub><mi>T</mi><mn>0</mn></msub></mrow></mfrac></mrow></msqrt></mtd><mtd><mrow><mi>T</mi><mo><</mo><msub><mi>T</mi><mn>0</mn></msub></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA00009129584100000211.GIF" wi="648" he="266" /></maths>为温度平移修正系数，μ<sub>1</sub>和μ<sub>2</sub>用于修正因为环境温度偏差造成的图像旋转和平移误差，T<sub>0</sub>为人为设定的标准温度，设为20度，T为由温度传感器实时监测得到的温度值；采用Ransac估计算法求取仿射变换模型的参数，最后在新的尺度s和旋转系数θ下采集正负样本，更新分类器；更新子模块，用于视觉字典的更新：在每帧图像获得目标位置以后，根据仿射变换参数的计算结果，收集所有满足结果参数的SIFT特征点<img file="FDA0000912958410000031.GIF" wi="203" he="87" />经过F＝3帧以后，获得新的特征点集<img file="FDA0000912958410000032.GIF" wi="198" he="87" />其中S<sub>t‑F</sub>代表了从F帧图像中得到的总特征点数；利用下式对新旧特征点重新进行K聚类：<img file="FDA0000912958410000033.GIF" wi="231" he="75" /><img file="FDA0000912958410000034.GIF" wi="818" he="88" />其中<img file="FDA0000912958410000035.GIF" wi="165" he="78" />表示新的视觉字典，视觉字典的大小保持不变；<img file="FDA0000912958410000036.GIF" wi="209" he="70" />是遗忘因子，表明了旧字典所占的比重，<img file="FDA0000912958410000037.GIF" wi="47" he="59" />越小，新特征对目标丢失的判断贡献越多，取<img file="FDA0000912958410000038.GIF" wi="179" he="64" />(3)识别输出模块，用于图像的识别和输出：在待识别的图像序列中利用跟踪算法获取目标区域，将目标区域映射到已知训练数据形成的子空间，计算子空间中目标区域与训练数据之间的距离，获得相似性度量，判定目标类别，并输出识别结果。
地址	315200 浙江省宁波市镇海区隧道北路555号