主权项 |
一种基于模型学习的清洁机器人最优目标路径规划方法,其特征在于,包括如下步骤:步骤1)初始化模型,设置R(x,u)=R<sub>max</sub>,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f(x,u,x′)为状态转移函数,R<sub>max</sub>为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的下一个状态;步骤2)初始化环境,设置机器人的起始位置;步骤3)判断当前的探索完全度η,若达到阈值I,转入步骤4),否则转入步骤(5);步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离,选择使距离最大的动作,转入步骤(6);步骤5)使用ε‑Greedy策略选择动作,转入步骤(6);步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之后的地点;步骤8)通过R‑MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u);步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);步骤10)执行值迭代算法;步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。 |