发明名称 面向复杂系统中的MAXQ任务图结构的自动发现方法
摘要 一种面向复杂系统中的MAXQ任务图结构的自动发现方法,步骤包括:首先采用Q-learning探索环境,搜集动作影响的状态变量;然后调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;凝聚算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止。其时间和空间复杂性均为O(n2);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;(3)得出分层任务图。本方法用学感知到的各种信息建立聚类模型,通过聚类自动构造出MAXQ的任务图,最终实现MAXQ的自动分层。
申请公布号 CN102521202A 申请公布日期 2012.06.27
申请号 CN201110367593.1 申请日期 2011.11.18
申请人 东南大学 发明人 王红兵;李文雅
分类号 G06F15/18(2006.01)I 主分类号 G06F15/18(2006.01)I
代理机构 南京天翼专利代理有限责任公司 32112 代理人 朱戈胜
主权项 1.一种面向复杂系统中的MAXQ任务图结构的自动发现方法,强化学习模型是如下:假设Agent与环境的交互发生在一系列的离散时刻t=0,1,2,…;在每个时刻t,Agent通过观察环境得到状态si∈S;Agent按策略π选择探索动作at∈A并执行;在下一时刻t+1,Agent收到环境给与的强化信号即报酬值rt+1∈R,并达到新状态st+1∈S;根据强化信号rt+1,Agent改进策略π;强化学习的最终目标是寻找到一个最优策略<img file="FDA0000109799960000011.GIF" wi="480" he="89" />使得Agent获得的状态值即该状态所获得的总报酬V<sup>π</sup>(S)最大或最小,其中γ为报酬折扣因子,所述<img file="FDA0000109799960000012.GIF" wi="582" he="87" />由于环境的状态转移具有随机性,因此,在策略π的作用下,状态s<sub>t</sub>的值:<img file="FDA0000109799960000013.GIF" wi="789" he="113" />其中P(s<sub>t+1</sub>|s<sub>t</sub>,a<sub>t</sub>)为环境的状态转移概率;其特征是本自动发现方法的步骤包括:(1)首先采用Q-learning探索环境,搜集动作影响的状态变量;(2)调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;凝聚算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止;其时间和空间复杂性均为O(n<sup>2</sup>);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;(3)得出分层任务图。
地址 211189 江苏省南京市江宁开发区东南大学路2号