主权项 |
一种基于数据驱动单网络结构的最优控制方法,用于对满足利普希茨稳定的非线性系统进行控制,其特征在于:包括顺序执行的以下步骤:步骤1、初始化:随机选择系统初始状态x<sub>0</sub>;选择半正定函数Q(x)≥0;选择对称正定矩阵R;选择LS‑SVM逼近器的参数;设定训练样本集长度为L并随机选择训练样本加入训练样本集构成初始的训练样本集;设定新增样本集长度为l;设定阈值0<δ<1、容许逼近误差0<ε<1;设定样本采样周期T;步骤2、选择一个初始稳定控制器作用于系统;步骤3、检测系统当前t时刻系统状态变量x<sub>t</sub>与控制变量u<sub>t</sub>;步骤4、在每个采样周期内,将采集到的((x<sub>t</sub>,u<sub>t</sub>),λ<sub>t‑1</sub>(x))作为该采样周期的样本,其中状态‑动作对(x<sub>t</sub>,u<sub>t</sub>)作为LS‑SVM逼近器的输入样本,正则函数λ(x)在前一采样周期t‑1时刻的值λ<sub>t‑1</sub>(x)作为LS‑SVM逼近器的输出样本;步骤5、根据||λ<sub>t‑1</sub>(x)‑λ<sub>t‑2</sub>(x)||≤δ判断本次采样周期的样本中的输出样本与前一个采样周期的样本中的输出样本是否相近,若上式成立则舍弃本次采样周期的样本,否则将本次采样周期的样本加入至新增样本集;步骤6、判断新增样本集是否溢出,是则将新增样本集所有样本全部加入训练样本集,并从训练样本集中相应地移除相同规模的已存在的训练样本,移除时按照这些已存在的训练样本加入训练样本集的先后顺序遵循先进先出原则进行,否则继续步骤5;步骤7、将步骤6中获得的训练样本集中的所有样本加入LS‑SVM逼近器,得到LS‑SVM逼近器的输出,即为正则函数λ<sub>t</sub>(x);步骤8、利用正则函数λ<sub>t</sub>(x),通过表达式<img file="FDA0000895789620000011.GIF" wi="544" he="126" />直接求解得到本次迭代周期的控制律u<sub>t+1</sub>(t),并作用于控制系统;上式中,g(x)为输入耦合矩阵,此处g(x)中的x为系统状态变量x<sub>t</sub>的缩写,T表示转置;步骤9、根据||u<sub>t+1</sub>(t)‑u<sub>t</sub>(t)||≤ε判断本次采样周期的控制律u<sub>t+1</sub>(t)与前一次迭代周期的控制率u<sub>t</sub>(t)是否有明显变化,若上式成立则表示还未得到最优控制律,返回步骤3,否则将u<sub>t+1</sub>(t)作为最优控制律输出,学习结束。 |