发明名称 一种基于模型学的清洁机器人最优目标路径规划方法
摘要 本发明公开了一种基于模型学的清洁机器人最优目标路径规划方法,针对目前市场中清洁机器人效率不高的问题,在Dyna‑H算法的基础上,提出一种基于自模拟度量和R‑MAX的Dyna算法,该路径规划方法可驱动机器人优先处理垃圾可能最多的地点,以强化学框架和Dyna‑H算法为基础,使用R‑MAX算法中的探索机制,在状态间距离的度量方法上,使用自模拟度量改进Dyna‑H中的欧式距离度量方法,从而提高模型的学效率。本发明的优点是模型学效率较高,适用确定环境和随机环境,在复杂的环境下能够较为高效地使机器人快速得到较为准确的环境模型,以规划出到达垃圾最多地点的最优路径。
申请公布号 CN105740644A 申请公布日期 2016.07.06
申请号 CN201610171859.8 申请日期 2016.03.24
申请人 苏州大学 发明人 刘全;周谊成;朱斐
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 苏州市新苏专利事务所有限公司 32221 代理人 朱亦倩
主权项 一种基于模型学习的清洁机器人最优目标路径规划方法,其特征在于,包括如下步骤:步骤1)初始化模型,设置R(x,u)=R<sub>max</sub>,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f(x,u,x′)为状态转移函数,R<sub>max</sub>为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的下一个状态;步骤2)初始化环境,设置机器人的起始位置;步骤3)判断当前的探索完全度η,若达到阈值I,转入步骤4),否则转入步骤(5);步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离,选择使距离最大的动作,转入步骤(6);步骤5)使用ε‑Greedy策略选择动作,转入步骤(6);步骤6)如果该状态动作对被标记为已知,则放弃该动作,并随机选择一个动作;步骤7)机器人根据动作进行移动,通过传感器判断当前地点是否有垃圾和移动之后的地点;步骤8)通过R‑MAX方法统计不同地点的访问次数和奖赏和,标记已知地点,并计算状态转移函数f(x,u,x′)和奖赏函数R(x,u);步骤9)机器人行动结束,若到达垃圾堆,转入步骤(10),否则转入步骤(2);步骤10)执行值迭代算法;步骤11)若运行时间允许,转入步骤(2),否则通过Greedy方法计算最优路线。
地址 215000 江苏省苏州市工业园区仁爱路199号