自适应最优控制方法,申请号CN201610815563.5-传众专利搜索

发明名称	自适应最优控制方法
摘要	本发明公开了一种自适应最优控制方法。其中，将控制系统的状态空间进行子空间划分；基于局部迭代算法，确定初始性能指标函数；判断控制系统的当前状态是否处于现行子空间中；若是，则根据判断结果优化当前状态下的动作；否则，保持上一时刻的动作，并根据状态所属子空间，确定初始迭代控制律以及初始迭代性能指标函数；接着，针对任一迭代，利用神经网络确定迭代性能指标函数和迭代控制律；再确定相邻两次迭代评价网络是否满足一定的收敛条件；最后，将得到的性能指标函数和控制律确定为最优性能指标函数和最优控制律。本发明实施例加快了收敛速度，实现了在系统状态稳定的情况下性能指标函数达到最小的效果。
申请公布号	CN106227043A	申请公布日期	2016.12.14
申请号	CN201610815563.5	申请日期	2016.09.09
申请人	中国科学院自动化研究所	发明人	魏庆来;刘德荣;林桥;李本凯;赵博
分类号	G05B13/04(2006.01)I	主分类号	G05B13/04(2006.01)I
代理机构	北京瀚仁知识产权代理事务所(普通合伙) 11482	代理人	宋宝库
主权项	一种自适应最优控制方法，其特征在于，所述方法包括：步骤1：对控制系统的状态空间进行子空间划分；步骤2：基于局部迭代算法，根据以下公式确定初始性能指标函数：V<sub>0</sub>(x<sub>k</sub>)＝ψ(x<sub>k</sub>)；其中，所述x<sub>k</sub>表示所述控制系统的状态；所述ψ(x<sub>k</sub>)表示任意半正定函数；所述V<sub>0</sub>(x<sub>k</sub>)表示在所述x<sub>k</sub>下的所述初始性能指标函数；步骤3：判断所述控制系统的当前状态是否处于现行子空间中，若是，则执行步骤4；否则，执行步骤5；步骤4：优化所述当前状态下的动作；步骤5：保持上一时刻的动作，并根据状态所属子空间，确定初始迭代控制律以及初始迭代性能指标函数：<maths num="0001"><math><![CDATA[<mrow><msub><mi>v</mi><mn>1</mn></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msub><mi>v</mi><mn>0</mn></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo><msub><mi>x</mi><mi>k</mi></msub><mo>&Element;</mo><msub><mi>Ω</mi><mi>x</mi></msub><mo>/</mo><msubsup><mi>Ψ</mi><mi>x</mi><mn>0</mn></msubsup></mrow></mtd></mtr><mtr><mtd><mrow><mi>arg</mi><munder><mi>min</mi><msub><mi>u</mi><mi>k</mi></msub></munder><mo>{</mo><mi>U</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>,</mo><msub><mi>u</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>V</mi><mn>0</mn></msub><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mo>}</mo><mo>,</mo><msub><mi>x</mi><mi>k</mi></msub><mo>&Element;</mo><msubsup><mi>Ψ</mi><mi>x</mi><mn>0</mn></msubsup></mrow></mtd></mtr></mtable></mfenced><mo>;</mo></mrow>]]></math><img file="FDA0001112483670000011.GIF" wi="1396" he="223" /></maths>V<sub>1</sub>(x<sub>k</sub>)＝U(x<sub>k</sub>,v<sub>1</sub>(x<sub>k</sub>))+V<sub>1</sub>(F(x<sub>k</sub>,v<sub>1</sub>(x<sub>k</sub>)))；其中，所述v<sub>1</sub>(x<sub>k</sub>)表示所述初始迭代控制律；所述V<sub>1</sub>(x<sub>k</sub>)表示所述初始迭代性能指标函数；所述u<sub>k</sub>表示系统控制向量；所述F(x<sub>k</sub>,v<sub>1</sub>(x<sub>k</sub>))表示系统状态函数；所述U(x<sub>k</sub>,u<sub>k</sub>)表示效用函数；步骤6：针对任一迭代，利用神经网络根据以下公式确定迭代性能指标函数和迭代控制律：V<sub>i</sub>(x<sub>k</sub>)＝U(x<sub>k</sub>,v<sub>i</sub>(x<sub>k</sub>))+V<sub>i</sub>(F(x<sub>k</sub>,v<sub>i</sub>(x<sub>k</sub>)))；<maths num="0002"><math><![CDATA[<mrow><msub><mi>v</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msub><mi>v</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo><msub><mi>x</mi><mi>k</mi></msub><mo>&Element;</mo><msub><mi>Ω</mi><mi>x</mi></msub><mo>/</mo><msubsup><mi>Ψ</mi><mi>x</mi><mi>i</mi></msubsup></mrow></mtd></mtr><mtr><mtd><mrow><mi>arg</mi><munder><mi>min</mi><msub><mi>u</mi><mi>k</mi></msub></munder><mo>{</mo><mi>U</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>k</mi></msub><mo>,</mo><msub><mi>u</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>V</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>x</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mo>}</mo><mo>,</mo><msub><mi>x</mi><mi>k</mi></msub><mo>&Element;</mo><msubsup><mi>Ψ</mi><mi>x</mi><mi>i</mi></msubsup></mrow></mtd></mtr></mtable></mfenced><mo>;</mo></mrow>]]></math><img file="FDA0001112483670000021.GIF" wi="1301" he="214" /></maths>其中，所述i表示迭代指标，i＝1,2,...∞；所述V<sub>i</sub>(x<sub>k</sub>)表示所述迭代性能指标函数；所述v<sub>i</sub>(x<sub>k</sub>)表示所述迭代控制律；步骤7：确定相邻两次迭代评价网络是否满足如下收敛条件：\|V<sub>i+1</sub>(x<sub>k</sub>)‑V<sub>i</sub>(x<sub>k</sub>)\|≤ε；其中，所述ε表示收敛精度；若是，执行步骤8；否则，执行步骤6；步骤8：将得到的性能指标函数和控制律确定为最优性能指标函数和最优控制律。
地址	100080 北京市海淀区中关村东路95号