发明名称 | 一种基于Q‑Learning算法和神经网络的平流层飞艇控制方法 | ||
摘要 | 本发明公开一种基于Q‑Learning算法和神经网络的平流层飞艇控制方法,包括建立平流层飞艇的观测模型,建立飞艇控制的MDP模型,根据Q‑Learning算法计算并存储各种状态下的动作值函数估计,为每个动作的函数估计建立一个CMAC神经网络,设计控制方法流程。本发明有效提升了算法的学效率,控制精度与PID控制器精度相当且控制效果更为智能,为飞艇系统建模、参数辨识和智能控制提供了有效的设计手段。 | ||
申请公布号 | CN106483852A | 申请公布日期 | 2017.03.08 |
申请号 | CN201611252157.9 | 申请日期 | 2016.12.30 |
申请人 | 北京天恒长鹰科技股份有限公司 | 发明人 | 赵磊 |
分类号 | G05B13/04(2006.01)I | 主分类号 | G05B13/04(2006.01)I |
代理机构 | 北京辰权知识产权代理有限公司 11619 | 代理人 | 郎志涛 |
主权项 | 一种基于Q‑Learning算法和神经网络的平流层飞艇控制方法,包括如下步骤:步骤一、建立平流层飞艇的观测模型,其包括经过任务描述和分析,建立飞艇观测坐标系;步骤二、建立飞艇控制的MDP模型,其包括把飞艇控制问题建模为离散的MDP,其包括用五元数组{S,A,r,P,J}来表示离散的MDP,通过对飞艇运动的分析,在真实数据的基础上,确定构成状态空间S的状态参数的范围和离散精度,选择该状态参数,其余四个参数A、r、P、J根据任务的目标进行调整;步骤三、根据Q‑Learning算法计算并存储各种状态下的动作值函数估计;步骤四、为每个动作的函数估计建立一个CMAC神经网络,其用于对各种状态下的不同动作进行函数估计和权值更新;步骤五、设计控制方法流程,其包括利用控制动作的实时执行情况对控制器进行训练,通过学习持续改善控制效果,采用基于Boltzmann分布的随机动作选择方法,推导出动作选择策略,设计完成实际任务中的整个控制过程。 | ||
地址 | 100083 北京市海淀区学院路39号一幢唯实大厦5层517单元 |