一种基于势博弈的多无人机协同搜索方法,申请号CN201610143227.0-传众专利搜索

发明名称	一种基于势博弈的多无人机协同搜索方法
摘要	本发明是一种基于势博弈的多无人机协同搜索方法，其实施步骤为：步骤一：多无人机协同搜索问题建模；步骤二：多无人机协调运动的势博弈建模和双对数-线性学法势博弈求解；步骤三：根据传感器探测信息更新概率图，对更新后的概率图进行信息融合，获取目标存在概率；步骤四：根据目标存在概率更新不确定度，并进行多无人机协同搜索。本发明能实现多无人机协同搜索，包含基于势博弈的协调运动、概率图更新、信息融合等过程，由于自身分布式的控制方式，方法计算简单，具有较强的鲁棒性，能有效应对外界干扰。
申请公布号	CN105700555A	申请公布日期	2016.06.22
申请号	CN201610143227.0	申请日期	2016.03.14
申请人	北京航空航天大学	发明人	段海滨;李沛
分类号	G05D1/12(2006.01)I;G05B13/04(2006.01)I	主分类号	G05D1/12(2006.01)I
代理机构	北京慧泉知识产权代理有限公司 11232	代理人	王顺荣;唐爱华
主权项	一种基于势博弈的多无人机协同搜索方法，其特征在于，该方法的步骤如下：步骤一：多无人机协同搜索问题建模用n架无人机对一个连续的任务区域<img file="FDA0000940660840000012.GIF" wi="166" he="63" />进行搜索，记为V＝{v<sub>1</sub>,v<sub>2</sub>,...,v<sub>n</sub>}；<img file="FDA0000940660840000016.GIF" wi="51" he="47" />表示实数域；每架无人机作为独立的决策者采用分布式策略对任务区域进行探索，将连续的任务区域<img file="FDA0000940660840000013.GIF" wi="169" he="62" />平均分配为M＝L<sub>x</sub>×L<sub>y</sub>个单，其中，L<sub>x</sub>，L<sub>y</sub>表示任务区域横向、纵向分配的份数，M表示划分的单元的个数；每个单元用其中心位置g＝[x,y]<sup>T</sup>等价代替；其中，x，y表示横、纵坐标的位置，T为数学符号转置；无人机v<sub>i</sub>在时刻t对其覆盖范围<img file="FDA0000940660840000017.GIF" wi="83" he="71" />内的基本单元进行一次独立的测量，测量结果为Z<sub>i,g,t</sub>，其中<img file="FDA0000940660840000014.GIF" wi="591" he="99" />μ<sub>i,t</sub>表示无人机v<sub>i</sub>在时刻t的位置，R<sub>si</sub>表示无人机传感器的探测范围；若其中心位置位于<img file="FDA0000940660840000015.GIF" wi="83" he="75" />之内，则某一单元g内的信息被无人机v<sub>i</sub>检测到；在时刻t，无人机v<sub>i</sub>执行一次测量，观测结果表示如下，<maths num="0001"><math><![CDATA[<mrow><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mn>1</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>i</mi><mi>f</mi><mo>\|</mo><mi>g</mi><mo>-</mo><msub><mi>μ</mi><mrow><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>\|</mo><mo>≤</mo><msub><mi>R</mi><mrow><mi>s</mi><mi>i</mi></mrow></msub></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>o</mi><mi>t</mi><mi>h</mi><mi>e</mi><mi>r</mi><mi>w</mi><mi>i</mi><mi>s</mi><mi>e</mi><mo>.</mo></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000011.GIF" wi="1172" he="213" /></maths>此外，将正确率和误警率分别定义为P(Z<sub>i,g,t</sub>＝1\|θ<sub>g</sub>＝1)＝p<sub>c</sub>和P(Z<sub>i,g,t</sub>＝1\|θ<sub>g</sub>＝0)＝p<sub>f</sub>，并假设这两个参数已知，且在整个任务执行过程中保持不变，其中θ<sub>g</sub>表示目标存在于单元g中的概率；对于多无人机网络的通信拓扑，将其建模为一个动态图G<sub>t</sub>＝(ε<sub>t</sub>,v<sub>t</sub>)，该动态图中v<sub>t</sub>为顶点集合，表示为v<sub>t</sub>＝{1,2,...,N}，ε<sub>t</sub>为连接边集合，表示为ε<sub>t</sub>＝{{i,j}:i,j∈v；\|\|μ<sub>i,t</sub>‑μ<sub>j,t</sub>\|\|≤R<sub>Ci</sub>}，其中μ<sub>i,t</sub>和μ<sub>j,t</sub>表示两个不同无人机v<sub>i</sub>和v<sub>j</sub>在时刻t的位置，R<sub>Ci</sub>为无人机的通信范围；无人机v<sub>i</sub>在时刻t的邻居集合表示为N<sub>i,t</sub>＝{j∈v\|{i,j}∈ε<sub>t</sub>}∪{i}，为表征方便，设该无人机本身属于其邻居集合；无人机v<sub>i</sub>在时刻t的度记为d<sub>i,t</sub>＝\|N<sub>i,t</sub>\|，表示它将自身位置信息和传感器信息传递给邻居个体的能力；步骤二：多无人机协调运动的势博弈建模和双对数‑线性学习法势博弈求解2.1多无人机协调运动的势博弈建模将多无人机协调运动建模成势博弈的过程中，包括三方面的要素：博弈参与者、参与者行动集及效用函数；博弈参与者即为参与搜索过程的n架无人机，需要考虑的为行动集和效用函数的设计；博弈参与者行动集A<sub>i</sub>的设计：它定义了博弈参与者可选择的全部行为，其中的元素被称为行动，是参与者在博弈过程中的决策变量；无人机的搜索效率取决于其传感器性能以及其所在的位置，将某一博弈者的行动集定义为在任务区域内它所能选择的位置，A<sub>i</sub>＝{g\|g∈Ω},<img file="FDA0000940660840000021.GIF" wi="208" he="63" />无人机v<sub>i</sub>的行动表示为a<sub>i</sub>∈A<sub>i</sub>，整个无人机群体的集体行动表示为a＝(a<sub>1</sub>,a<sub>2</sub>,...,a<sub>n</sub>)，称作行动组合；设a(t‑1)为无人机v<sub>i</sub>在时刻t‑1的行动组合，则根据无人机运动特性以及障碍物等行动约束，将时刻t行动集简化为上一时刻行动集的函数，受限的行动集，记为<img file="FDA0000940660840000022.GIF" wi="427" he="89" />对于博弈者任一行动a<sub>i</sub>∈A<sub>i</sub>，有a<sub>i</sub>∈C<sub>i</sub>(a<sub>i</sub>)，即无人机被允许停留在上一时刻的位置；在无人机被布置到任务器搜集信息时，密度函数η:<img file="FDA0000940660840000023.GIF" wi="199" he="60" />用来记录无人机对任务区域内目标时间发生概率的了解程度；<img file="FDA0000940660840000024.GIF" wi="74" he="64" />表示正的实数集；由于信号衰减，传感器性能随着目标单元与无人机位置之间的几何距离增大而降低，因此用非减可微函数f(\|\|q‑p<sub>i</sub>\|\|):<img file="FDA0000940660840000034.GIF" wi="233" he="63" />对传感器的信号强度进行量化分析，q∈Ω为任务区域中单元格的位置，p<sub>i</sub>为无人机v<sub>i</sub>的位置；无人机的性能用概率密度函数和信号衰减综合表示如下：<maths num="0002"><math><![CDATA[<mrow><mi>Φ</mi><mrow><mo>(</mo><mi>a</mi><mo>)</mo></mrow><mo>=</mo><mi>Φ</mi><mrow><mo>(</mo><msub><mi>p</mi><mn>1</mn></msub><mo>,</mo><msub><mi>p</mi><mn>2</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>p</mi><mi>n</mi></msub><mo>)</mo></mrow><mo>=</mo><msub><mo>&Integral;</mo><mi>Ω</mi></msub><mi>f</mi><mrow><mo>(</mo><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>i</mi><mo>&Element;</mo><mo>{</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mi>n</mi><mo>}</mo></mrow></munder><mo>\|</mo><mo>\|</mo><mi>q</mi><mo>-</mo><msub><mi>p</mi><mi>i</mi></msub><mo>\|</mo><mo>\|</mo><mo>)</mo></mrow><mi>η</mi><mrow><mo>(</mo><mi>q</mi><mo>)</mo></mrow><mi>d</mi><mi>q</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000031.GIF" wi="1494" he="158" /></maths>其中<maths num="0003"><math><![CDATA[<mrow><mi>f</mi><mrow><mo>(</mo><mo>\|</mo><mo>\|</mo><mi>q</mi><mo>-</mo><msub><mi>p</mi><mi>i</mi></msub><mo>\|</mo><mo>\|</mo><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mo>\|</mo><mo>\|</mo><mi>q</mi><mo>-</mo><msub><mi>p</mi><mi>i</mi></msub><mo>\|</mo><mo>\|</mo></mrow></mtd><mtd><mrow><mo>\|</mo><mo>\|</mo><mi>q</mi><mo>-</mo><msub><mi>p</mi><mi>i</mi></msub><mo>\|</mo><mo>\|</mo><mo>≤</mo><msub><mi>R</mi><mrow><mi>S</mi><mi>i</mi></mrow></msub></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>o</mi><mi>t</mi><mi>h</mi><mi>e</mi><mi>r</mi><mi>w</mi><mi>i</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000940660840000032.GIF" wi="870" he="196" /></maths>式中η(q)为密度函数，R<sub>Si</sub>为无人机v<sub>i</sub>的传感距离；博弈参与者效用函数U<sub>i</sub>(a<sub>i</sub>,a<sub>‑i</sub>)的设计：无人机v<sub>i</sub>的效用函数设计为整体效用的边际贡献值，记做<maths num="0004"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><msub><mi>U</mi><mi>i</mi></msub><mrow><mo>(</mo><mrow><msub><mi>a</mi><mi>i</mi></msub><mo>,</mo><msub><mi>a</mi><mrow><mo>-</mo><mi>i</mi></mrow></msub></mrow><mo>)</mo></mrow><mo>=</mo><mrow><msub><mo>&Integral;</mo><mi>Ω</mi></msub><mrow><mi>f</mi><mrow><mo>(</mo><mrow><munder><mi>min</mi><mrow><mi>i</mi><mo>&Element;</mo><mrow><mo>{</mo><mrow><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>n</mi></mrow><mo>}</mo></mrow></mrow></munder><mo>\|</mo><mo>\|</mo><mi>q</mi><mo>-</mo><msub><mi>p</mi><mi>i</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mo>)</mo></mrow><mi>η</mi><mrow><mo>(</mo><mi>q</mi><mo>)</mo></mrow><mi>d</mi><mi>q</mi></mrow></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>-</mo><mrow><msub><mo>&Integral;</mo><mi>Ω</mi></msub><mrow><mi>f</mi><mrow><mo>(</mo><mrow><munder><mi>min</mi><mrow><mi>i</mi><mo>&Element;</mo><mrow><mo>{</mo><mrow><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>i</mi><mo>+</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>n</mi></mrow><mo>}</mo></mrow></mrow></munder><mo>\|</mo><mo>\|</mo><mi>q</mi><mo>-</mo><msub><mi>p</mi><mi>i</mi></msub><mo>\|</mo><mo>\|</mo></mrow><mo>)</mo></mrow><mi>η</mi><mrow><mo>(</mo><mi>q</mi><mo>)</mo></mrow><mi>d</mi><mi>q</mi><mo>.</mo></mrow></mrow></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000033.GIF" wi="1492" he="335" /></maths>根据势函数的定义，按照式(3)设计效用函数，构成的博弈为势博弈，满足势博弈的相关性质，能利用各种学习算法保证其最优性和收敛性；2.2双对数‑线性学习法的势博弈求解采用双对数‑线性学习法对问题进行求解，减少无人机计算资源的负担，有利于多无人机的实时运动控制；在双对数‑线性学习法中，首先按异步时间模型以相同的概率随机选择一架无人机v<sub>i</sub>∈V改变其位置；与此同时，其他无人机保持之前的行动不变a<sub>‑i</sub>(t)＝a<sub>‑i</sub>(t‑1)；选择出的无人机从其受限行动集C<sub>i</sub>(a<sub>i</sub>(t‑1))中选出尝试动作<img file="FDA0000940660840000041.GIF" wi="43" he="70" />以改变其位置<maths num="0005"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mover><mi>a</mi><mo>^</mo></mover><mi>i</mi></msub><mo>=</mo><msub><mi>a</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>/</mo><msub><mi>z</mi><mi>i</mi></msub><mo>,</mo><mo>&ForAll;</mo><msub><mi>a</mi><mi>i</mi></msub><mo>&Element;</mo><msub><mi>C</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>a</mi><mi>i</mi></msub><mo>(</mo><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>)</mo><mo>)</mo></mrow><mo>/</mo><msub><mi>a</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000042.GIF" wi="1390" he="103" /></maths><maths num="0006"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mover><mi>a</mi><mo>^</mo></mover><mi>i</mi></msub><mo>=</mo><msub><mi>a</mi><mi>i</mi></msub><mo>(</mo><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>)</mo><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><mrow><mo>(</mo><mo>\|</mo><msub><mi>C</mi><mi>i</mi></msub><mo>(</mo><mrow><msub><mi>a</mi><mi>i</mi></msub><mrow><mo>(</mo><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>)</mo></mrow></mrow><mo>)</mo><mo>\|</mo><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>/</mo><msub><mi>z</mi><mi>i</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000043.GIF" wi="1340" he="125" /></maths>其中z<sub>i</sub>表示无人机v<sub>i</sub>在受限行动集中行动的最大个数，表示为<img file="FDA0000940660840000044.GIF" wi="613" he="96" />无人机v<sub>i</sub>在选择出尝试动作<img file="FDA0000940660840000045.GIF" wi="49" he="70" />后，在时刻t按照策略p<sub>i</sub>(t)∈Δ(A<sub>i</sub>)来更新其动作，博弈者策略p<sub>i</sub>(t)定义如下：<maths num="0007"><math><![CDATA[<mrow><msubsup><mi>p</mi><mi>i</mi><mrow><msub><mi>a</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow></msubsup><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mi>e</mi><mrow><mfrac><mn>1</mn><mi>τ</mi></mfrac><msub><mi>U</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>a</mi><mo>(</mo><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>)</mo><mo>)</mo></mrow></mrow></msup><mrow><msup><mi>e</mi><mrow><mfrac><mn>1</mn><mi>τ</mi></mfrac><msub><mi>U</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>a</mi><mo>(</mo><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>)</mo><mo>)</mo></mrow></mrow></msup><mo>+</mo><msup><mi>e</mi><mrow><mfrac><mn>1</mn><mi>τ</mi></mfrac><msub><mi>U</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mover><mi>a</mi><mo>^</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mi>a</mi><mrow><mo>-</mo><mi>i</mi></mrow></msub><mo>(</mo><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>)</mo><mo>)</mo></mrow></mrow></msup></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000046.GIF" wi="1438" he="326" /></maths><maths num="0008"><math><![CDATA[<mrow><msubsup><mi>p</mi><mi>i</mi><msub><mover><mi>a</mi><mo>^</mo></mover><mi>i</mi></msub></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mi>e</mi><mrow><mfrac><mn>1</mn><mi>τ</mi></mfrac><msub><mi>U</mi><mi>i</mi></msub><mrow><mo>(</mo><mrow><msub><mover><mi>a</mi><mo>^</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mi>a</mi><mrow><mo>-</mo><mi>i</mi></mrow></msub><mrow><mo>(</mo><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow></mrow></msup><mrow><msup><mi>e</mi><mrow><mfrac><mn>1</mn><mi>τ</mi></mfrac><msub><mi>U</mi><mi>i</mi></msub><mrow><mo>(</mo><mrow><mi>a</mi><mrow><mo>(</mo><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow></mrow></msup><mo>+</mo><msup><mi>e</mi><mrow><mfrac><mn>1</mn><mi>τ</mi></mfrac><msub><mi>U</mi><mi>i</mi></msub><mrow><mo>(</mo><mrow><msub><mover><mi>a</mi><mo>^</mo></mover><mi>i</mi></msub><mo>,</mo><msub><mi>a</mi><mrow><mo>-</mo><mi>i</mi></mrow></msub><mrow><mo>(</mo><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow></mrow></msup></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000047.GIF" wi="1414" he="340" /></maths>式中U<sub>i</sub>(a(t‑1))和<img file="FDA0000940660840000048.GIF" wi="387" he="94" />分别是无人机当前行动的效用以及按照选定尝试动作改变后的假想效用；式中参数τ定义了噪声的强度，即无人机作决策时在多大程度上会选择次优动作；当τ→0时，无人机会以概率1选择a<sub>‑i</sub>(t‑1)的最佳应对动作；注意，当<img file="FDA0000940660840000049.GIF" wi="286" he="79" />时，<img file="FDA00009406608400000410.GIF" wi="675" he="94" />时，<img file="FDA00009406608400000411.GIF" wi="260" he="84" />对于无人机v<sub>i</sub>∈V和其行动集中的任一对动作<img file="FDA00009406608400000412.GIF" wi="274" he="79" />可达性表示存在一系列的行动<img file="FDA00009406608400000413.GIF" wi="483" he="78" />对所有的t∈{1,2,...,m}满足<img file="FDA00009406608400000414.GIF" wi="283" he="95" />对于无人机v<sub>i</sub>∈V和其行动集中的任一对动作<img file="FDA0000940660840000051.GIF" wi="915" he="87" />表示其可逆性；对于构造成效用函数为式(2)的势博弈的多无人机协调运动问题，如果博弈者遵循双对数‑线性学习法，并且其受限行动集满足可达性和可逆性，则无人机在t→∞，τ→0时将移动到最大化其覆盖性能的位置；步骤三：根据传感器探测信息更新概率图，对更新后的概率图进行信息融合，获取目标存在概率3.1根据传感器探测信息更新概率图首先根据先验知识建立表征各无人机对任务区域的理解程度的概率图，然后通过贝叶斯规则和在运动过程中获得的信息对概率图进行更新，具体步骤如下；在搜索过程中，每架无人机v<sub>i</sub>保存一个它对任务区域所有基础单元的概率图P<sub>i,g,t</sub>，<img file="FDA0000940660840000052.GIF" wi="411" he="95" />表示在时刻t目标存在于单元g中的概率，θ<sub>g</sub>＝1和θ<sub>g</sub>＝0分别表示目标是否存在于单元g；无人机v<sub>i</sub>根据传感器观测信息B<sub>i,t</sub>更新其概率图，公式如下P<sub>i,g,t</sub>＝P(θ<sub>g</sub>＝1\|B<sub>i,t</sub>). (8)目标存在于单元g在无人机v<sub>i</sub>在时刻t观测值为Z<sub>i,g,t</sub>时的条件概率P(θ<sub>g</sub>＝1\|Z<sub>i,g,t</sub>)按照贝叶斯公式表示为<maths num="0009"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>1</mn><mo>\|</mo><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>\|</mo><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000053.GIF" wi="1341" he="198" /></maths>其中P(θ<sub>g</sub>＝1)为目标存在于单元g中的先验概率；将无人机v<sub>i</sub>在前一时刻t‑1对于目标存在于单元g的概率估计P<sub>i,g,t‑1</sub>作为先验概率，结合对于g在时刻t的观测Z<sub>i,g,t</sub>，式(9)变为<maths num="0010"><math><![CDATA[<mrow><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>\|</mo><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>1</mn><mo>)</mo></mrow><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000061.GIF" wi="1246" he="236" /></maths>根据贝叶斯公式上式的分母表示为P(Z<sub>i,g,t</sub>)＝P(Z<sub>i,g,t</sub>\|θ<sub>g</sub>＝1)P(θ<sub>g</sub>＝1)+P(Z<sub>i,g,t</sub>\|θ<sub>g</sub>＝0)P(θ<sub>g</sub>＝0)，其中P(Z<sub>i,g,t</sub>\|θ<sub>g</sub>＝1)和P(Z<sub>i,g,t</sub>\|θ<sub>g</sub>＝0)为正确检测率和误警率，为建模部分中的p<sub>c</sub>和p<sub>f</sub>；将式(10)代入式(9)中，概率图更新规则表示如下，<maths num="0011"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>1</mn><mo>\|</mo><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>\|</mo><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>1</mn></mrow><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>1</mn></mrow><mo>)</mo></mrow></mrow><mrow><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>\|</mo><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>1</mn></mrow><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>1</mn></mrow><mo>)</mo></mrow><mo>+</mo><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>\|</mo><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>0</mn></mrow><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mrow><msub><mi>θ</mi><mi>g</mi></msub><mo>=</mo><mn>0</mn></mrow><mo>)</mo></mrow></mrow></mfrac></mrow></mtd></mtr><mtr><mtd><mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mfrac><mrow><msub><mi>p</mi><mi>c</mi></msub><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mrow><msub><mi>p</mi><mi>c</mi></msub><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>p</mi><mi>f</mi></msub><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mo>)</mo></mrow></mrow></mfrac></mtd><mtd><mrow><mi>i</mi><mi>f</mi><mi> </mi><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mn>1</mn></mrow></mtd></mtr><mtr><mtd><mfrac><mrow><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><msub><mi>p</mi><mi>c</mi></msub></mrow><mo>)</mo></mrow><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mrow><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><msub><mi>p</mi><mi>c</mi></msub></mrow><mo>)</mo></mrow><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>+</mo><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><msub><mi>p</mi><mi>f</mi></msub></mrow><mo>)</mo></mrow><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mrow><mo>)</mo></mrow></mrow></mfrac></mtd><mtd><mrow><mi>i</mi><mi>f</mi><mi> </mi><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mtd><mtd><mrow><mi>o</mi><mi>t</mi><mi>h</mi><mi>e</mi><mi>r</mi><mi>w</mi><mi>i</mi><mi>s</mi><mi>e</mi><mo>.</mo></mrow></mtd></mtr></mtable></mfenced></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000062.GIF" wi="1540" he="982" /></maths>在0＜p<sub>c</sub>＜1和0＜p<sub>f</sub>＜1时，为了简化运算，设<maths num="0012"><math><![CDATA[<mrow><msub><mi>Q</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mover><mo>=</mo><mi>Δ</mi></mover><mi>l</mi><mi>n</mi><mrow><mo>(</mo><mfrac><mn>1</mn><msub><mi>P</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub></mfrac><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000063.GIF" wi="1108" he="218" /></maths>则概率更新规则变换为<maths num="0013"><math><![CDATA[<mrow><msub><mi>Q</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msub><mi>Q</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>+</mo><mi>l</mi><mi>n</mi><mfrac><msub><mi>p</mi><mi>f</mi></msub><msub><mi>p</mi><mi>c</mi></msub></mfrac></mrow></mtd><mtd><mrow><mi>i</mi><mi>f</mi><mi> </mi><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mn>1</mn></mrow></mtd></mtr><mtr><mtd><mrow><msub><mi>Q</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>+</mo><mi>l</mi><mi>n</mi><mfrac><mrow><mn>1</mn><mo>-</mo><msub><mi>p</mi><mi>f</mi></msub></mrow><mrow><mn>1</mn><mo>-</mo><msub><mi>p</mi><mi>c</mi></msub></mrow></mfrac></mrow></mtd><mtd><mrow><mi>i</mi><mi>f</mi><mi> </mi><msub><mi>Z</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><msub><mi>Q</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub></mtd><mtd><mrow><mi>o</mi><mi>t</mi><mi>h</mi><mi>e</mi><mi>r</mi><mi>w</mi><mi>i</mi><mi>s</mi><mi>e</mi><mo>.</mo></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000071.GIF" wi="1334" he="590" /></maths>这样，对于P<sub>i,g,t</sub>∈(0,1)，P<sub>i,g,t</sub>和Q<sub>i,g,t</sub>存在一对一映射，实现从Q<sub>i,g,t</sub>恢复P<sub>i,g,t</sub>；3.2对更新后的概率图进行信息融合，获取目标存在概率在步骤三中“根据传感器探测信息更新概率图”部分，无人机v<sub>i</sub>利用传感器探测到的新息对上一时刻t‑1的概率图H<sub>i,g,t</sub>进行更新；每架无人机将更新后的概率图传输给它当前的邻居，邻居由通信距离和各自的位置决定；然后，利用线性组合的方式对自身更新的概率图和通信获取的邻居概率图进行融合，如下式<maths num="0014"><math><![CDATA[<mrow><msub><mi>Q</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><msub><mi>ω</mi><mrow><mi>i</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><msub><mi>H</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>+</mo><munder><mi>Σ</mi><mrow><mi>j</mi><mo>&Element;</mo><msub><mi>N</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></munder><msub><mi>ω</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><mi>t</mi></mrow></msub><msub><mi>H</mi><mrow><mi>j</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000072.GIF" wi="1350" he="157" /></maths>其中ω<sub>i,j,t</sub>是无人机v<sub>i</sub>概率图Q<sub>j,g,t‑1</sub>的权重；将不是无人机v<sub>i</sub>邻居个体的权重设为ω<sub>i,j,t</sub>＝0，上式写成如下的形式；<maths num="0015"><math><![CDATA[<mrow><msub><mi>Q</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>ω</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>,</mo><mi>t</mi></mrow></msub><msub><mi>H</mi><mrow><mi>j</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>15</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000073.GIF" wi="1141" he="206" /></maths>这里W<sub>t</sub>＝(ω<sub>i,j</sub>)采用著名的Metropolis权重矩阵，表示为<maths num="0016"><math><![CDATA[<mrow><msub><mi>ω</mi><mrow><mi>i</mi><mo>,</mo><mi>i</mi><mo>,</mo><mi>t</mi></mrow></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><mi>max</mi><mrow><mo>{</mo><mrow><msub><mi>d</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>d</mi><mi>j</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow><mo>}</mo></mrow></mrow></mfrac></mtd><mtd><mrow><mi>i</mi><mi>f</mi><mi> </mi><mrow><mo>{</mo><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mo>}</mo></mrow><mo>&Element;</mo><mi>ϵ</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mn>1</mn><mo>-</mo><munder><mi>Σ</mi><mrow><mrow><mo>{</mo><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow><mo>}</mo></mrow><mo>&Element;</mo><mi>ϵ</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></munder><msub><mi>ω</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi><mo>,</mo><mi>t</mi></mrow></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mtd><mtd><mrow><mi>i</mi><mi>f</mi><mi> </mi><mi>i</mi><mo>=</mo><mi>j</mi></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mrow><mi>o</mi><mi>t</mi><mi>h</mi><mi>e</mi><mi>r</mi><mi>w</mi><mi>i</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>16</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000081.GIF" wi="1430" he="630" /></maths>其中d<sub>i</sub>(t),d<sub>j</sub>(t)表示节点i和j的度，在实际配置中，将W<sub>t</sub>∈R<sup>n×n</sup>存储成稀疏矩阵的形式，减少所需存储空间；若无人机网络连通，则W<sub>t</sub>为遍历性双随机矩阵，使各概率图渐进稳定到平均一致性；该权重矩阵适用于分布式配置，无人机无需了解无人机网络的通信拓扑等全局信息，甚至不需要参与整个任务的无人机数目；对于式(15)定义的分布式信息估计过程，如果执行任务的无人机网络通信拓扑满足以下两个条件之一，则能够保证渐进收敛到概率图初始状态<img file="FDA0000940660840000083.GIF" wi="107" he="76" />的平均值：或者无人机的通信网络为连通图；或者无人机的通信网络为存在独立通信失败的连通图；步骤四：根据目标存在概率更新不确定度，并进行多无人机协同搜索通过与邻居通信进行信息融合，得到估计值\|\|Q<sub>i,j,k</sub>\|\|，该值用来刻画无人机v<sub>i</sub>对于任务区域Ω单元g的不确定度；\|\|Q<sub>i,j,k</sub>\|\|越大，无人机v<sub>i</sub>的不确定值越小，反之亦然；而搜索问题构造成了一个具有受限行动集的势博弈，并利用双对数线性学习方法进行协调运动；因此，利用\|\|Q<sub>i,j,k</sub>\|\|构造势博弈效用函数中的密度函数η(q)，形式如下：<maths num="0017"><math><![CDATA[<mrow><msub><mi>η</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>k</mi></mrow></msub><mover><mo>=</mo><mi>Δ</mi></mover><msup><mi>e</mi><mrow><mo>-</mo><msub><mi>k</mi><mi>η</mi></msub><mo>\|</mo><mo>\|</mo><msub><mi>Q</mi><mrow><mi>i</mi><mo>,</mo><mi>g</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>\|</mo><mo>\|</mo></mrow></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>17</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000940660840000082.GIF" wi="1140" he="166" /></maths>其中k<sub>η</sub>为正的增益参数，η<sub>i,g,k</sub>表示无人机v<sub>i</sub>在时刻k对于单元g的不确定度值；协同搜索问题被分解为三个连续的部分：协调运动、传感器观测和信息融合更新；开始更新前，每个无人机初始化一个概率图，该图存储着每个单元中目标存在的概率；随后无人机根据步骤二中建立的势博弈模型进行协调运动，以优化整体的搜索性能；当到达新的位置之后，无人机利用传感器对覆盖范围内的单元进行探测；随后，结合探测到的数据，无人机根据步骤三对各自的概率图进行更新，并通过与邻居个体进行通信进行信息融合；重复步骤二和步骤三，直至各单元的不确定度降低到设定的阈值之下，此时搜索任务完成。
地址	100191 北京市海淀区学院路37号