面向复杂系统中的MAXQ任务图结构的自动发现方法,申请号CN201110367593.1-传众专利搜索

发明名称	面向复杂系统中的MAXQ任务图结构的自动发现方法
摘要	一种面向复杂系统中的MAXQ任务图结构的自动发现方法，步骤包括：首先采用Q-learning探索环境，搜集动作影响的状态变量；然后调用基于动作执行效果的聚类算法，这种策略是以数据对象作为原子类，然后将这些原子类进行聚合；逐步聚合成越来越大的类，直到满足终止条件；凝聚算法的过程为：在初始时，每一个成员都组成一个单独的簇，在以后的迭代过程中，再把那些相互邻近的簇合并成一个簇，直到所有的成员组成一个簇为止。其时间和空间复杂性均为O(n2)；通过凝聚式的方法将两簇合并后，无法再将其分离到之前的状态；(3)得出分层任务图。本方法用学感知到的各种信息建立聚类模型，通过聚类自动构造出MAXQ的任务图，最终实现MAXQ的自动分层。
申请公布号	CN102521202A	申请公布日期	2012.06.27
申请号	CN201110367593.1	申请日期	2011.11.18
申请人	东南大学	发明人	王红兵;李文雅
分类号	G06F15/18(2006.01)I	主分类号	G06F15/18(2006.01)I
代理机构	南京天翼专利代理有限责任公司 32112	代理人	朱戈胜
主权项	1.一种面向复杂系统中的MAXQ任务图结构的自动发现方法，强化学习模型是如下：假设Agent与环境的交互发生在一系列的离散时刻t＝0，1，2，…；在每个时刻t，Agent通过观察环境得到状态si∈S；Agent按策略π选择探索动作at∈A并执行；在下一时刻t+1，Agent收到环境给与的强化信号即报酬值rt+1∈R，并达到新状态st+1∈S；根据强化信号rt+1，Agent改进策略π；强化学习的最终目标是寻找到一个最优策略<img file="FDA0000109799960000011.GIF" wi="480" he="89" />使得Agent获得的状态值即该状态所获得的总报酬V<sup>π</sup>(S)最大或最小，其中γ为报酬折扣因子，所述<img file="FDA0000109799960000012.GIF" wi="582" he="87" />由于环境的状态转移具有随机性，因此，在策略π的作用下，状态s<sub>t</sub>的值：<img file="FDA0000109799960000013.GIF" wi="789" he="113" />其中P(s<sub>t+1</sub>\|s<sub>t</sub>，a<sub>t</sub>)为环境的状态转移概率；其特征是本自动发现方法的步骤包括：(1)首先采用Q-learning探索环境，搜集动作影响的状态变量；(2)调用基于动作执行效果的聚类算法，这种策略是以数据对象作为原子类，然后将这些原子类进行聚合；逐步聚合成越来越大的类，直到满足终止条件；凝聚算法的过程为：在初始时，每一个成员都组成一个单独的簇，在以后的迭代过程中，再把那些相互邻近的簇合并成一个簇，直到所有的成员组成一个簇为止；其时间和空间复杂性均为O(n<sup>2</sup>)；通过凝聚式的方法将两簇合并后，无法再将其分离到之前的状态；(3)得出分层任务图。
地址	211189 江苏省南京市江宁开发区东南大学路2号