主权项 |
一种自适应最优控制方法,其特征在于,所述方法包括:步骤1:对控制系统的状态空间进行子空间划分;步骤2:基于局部迭代算法,根据以下公式确定初始性能指标函数:V<sub>0</sub>(x<sub>k</sub>)=ψ(x<sub>k</sub>);其中,所述x<sub>k</sub>表示所述控制系统的状态;所述ψ(x<sub>k</sub>)表示任意半正定函数;所述V<sub>0</sub>(x<sub>k</sub>)表示在所述x<sub>k</sub>下的所述初始性能指标函数;步骤3:判断所述控制系统的当前状态是否处于现行子空间中,若是,则执行步骤4;否则,执行步骤5;步骤4:优化所述当前状态下的动作;步骤5:保持上一时刻的动作,并根据状态所属子空间,确定初始迭代控制律以及初始迭代性能指标函数:<maths num="0001"><math><![CDATA[<mrow><msub><mi>v</mi><mn>1</mn></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msub><mi>v</mi><mn>0</mn></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo><msub><mi>x</mi><mi>k</mi></msub><mo>∈</mo><msub><mi>Ω</mi><mi>x</mi></msub><mo>/</mo><msubsup><mi>Ψ</mi><mi>x</mi><mn>0</mn></msubsup></mrow></mtd></mtr><mtr><mtd><mrow><mi>arg</mi><munder><mi>min</mi><msub><mi>u</mi><mi>k</mi></msub></munder><mo>{</mo><mi>U</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>,</mo><msub><mi>u</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>V</mi><mn>0</mn></msub><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mo>}</mo><mo>,</mo><msub><mi>x</mi><mi>k</mi></msub><mo>∈</mo><msubsup><mi>Ψ</mi><mi>x</mi><mn>0</mn></msubsup></mrow></mtd></mtr></mtable></mfenced><mo>;</mo></mrow>]]></math><img file="FDA0001112483670000011.GIF" wi="1396" he="223" /></maths>V<sub>1</sub>(x<sub>k</sub>)=U(x<sub>k</sub>,v<sub>1</sub>(x<sub>k</sub>))+V<sub>1</sub>(F(x<sub>k</sub>,v<sub>1</sub>(x<sub>k</sub>)));其中,所述v<sub>1</sub>(x<sub>k</sub>)表示所述初始迭代控制律;所述V<sub>1</sub>(x<sub>k</sub>)表示所述初始迭代性能指标函数;所述u<sub>k</sub>表示系统控制向量;所述F(x<sub>k</sub>,v<sub>1</sub>(x<sub>k</sub>))表示系统状态函数;所述U(x<sub>k</sub>,u<sub>k</sub>)表示效用函数;步骤6:针对任一迭代,利用神经网络根据以下公式确定迭代性能指标函数和迭代控制律:V<sub>i</sub>(x<sub>k</sub>)=U(x<sub>k</sub>,v<sub>i</sub>(x<sub>k</sub>))+V<sub>i</sub>(F(x<sub>k</sub>,v<sub>i</sub>(x<sub>k</sub>)));<maths num="0002"><math><![CDATA[<mrow><msub><mi>v</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msub><mi>v</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo><msub><mi>x</mi><mi>k</mi></msub><mo>∈</mo><msub><mi>Ω</mi><mi>x</mi></msub><mo>/</mo><msubsup><mi>Ψ</mi><mi>x</mi><mi>i</mi></msubsup></mrow></mtd></mtr><mtr><mtd><mrow><mi>arg</mi><munder><mi>min</mi><msub><mi>u</mi><mi>k</mi></msub></munder><mo>{</mo><mi>U</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>,</mo><msub><mi>u</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>V</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mo>}</mo><mo>,</mo><msub><mi>x</mi><mi>k</mi></msub><mo>∈</mo><msubsup><mi>Ψ</mi><mi>x</mi><mi>i</mi></msubsup></mrow></mtd></mtr></mtable></mfenced><mo>;</mo></mrow>]]></math><img file="FDA0001112483670000021.GIF" wi="1301" he="214" /></maths>其中,所述i表示迭代指标,i=1,2,...∞;所述V<sub>i</sub>(x<sub>k</sub>)表示所述迭代性能指标函数;所述v<sub>i</sub>(x<sub>k</sub>)表示所述迭代控制律;步骤7:确定相邻两次迭代评价网络是否满足如下收敛条件:|V<sub>i+1</sub>(x<sub>k</sub>)‑V<sub>i</sub>(x<sub>k</sub>)|≤ε;其中,所述ε表示收敛精度;若是,执行步骤8;否则,执行步骤6;步骤8:将得到的性能指标函数和控制律确定为最优性能指标函数和最优控制律。 |