基于大数据方式的强化学仿人机器人步态规划方法,申请号CN201610423029.X-传众专利搜索

发明名称	基于大数据方式的强化学仿人机器人步态规划方法
摘要	本发明公开了一种基于大数据方式的强化学仿人机器人步态规划方法，首先，通过装配在仿人机器人上的传感器获取状态信息；然后使用Q学算法计算动作，对离线步态进行修正，同时获得立即回报值；接着将以上信息以四元组的形式，使用大数据存储方法保存到文件中；最后随机抽取四元组结合RBF神经网络更新Q函数。本发明方法能够对仿人机器人在不平整环境情况下的步行运动进行平稳调控，相较于仅利用离线步态指导机器人行走的方法，拥有更高的效率和优势，实验证明了该方法的可行性和有效性。
申请公布号	CN106094817A	申请公布日期	2016.11.09
申请号	CN201610423029.X	申请日期	2016.06.14
申请人	华南理工大学	发明人	毕盛;陈奇石;刘云达;董敏;闵华清
分类号	G05D1/02(2006.01)I;G06F19/00(2011.01)I	主分类号	G05D1/02(2006.01)I
代理机构	广州市华学知识产权代理有限公司 44245	代理人	罗观祥
主权项	基于大数据方式的强化学习仿人机器人步态规划方法，其特征在于：首先，需要通过装配在仿人机器人上的传感器获取状态信息，仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响，因此在所定义的状态信息中，应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息，此外还应指明躯干在俯仰方向的倾斜角度，俯仰方向的角速度表明了仿人机器人的稳定程度；其次，使用倒立摆模型预先生成仿人机器人的离线步态，用于仿人机器人步行的基本标准；假设在时刻t，智能主体通过执行动作a<sub>t</sub>，使环境状态从s<sub>t</sub>变为s<sub>t+1</sub>，立即回报值为r，则Q函数按照以下公式进行更新：Q(s<sub>t</sub>,a,t+1)＝λQ(s<sub>t</sub>,a,t)+(1‑λ)[r+γmax{Q(s<sub>t+1</sub>,b,t)/b∈A}]其中，A为所有可能的动作集合；λ为学习率，取值为[0,1]；γ为衰减因子，取值为(0,1)；在该公式当中，Q(s<sub>t+1</sub>,b,t)为一个稍晚的值，以γ的概率对其折扣并加上立即奖励，并以一定的学习率对前一个Q值进行更新估计；当Q函数的值收敛于最优值Q时，则停止更新；此时智能主体可以根据Q值选择相应的最优的动作序列；当获得动作之后，调整髋关节的舵机方向，改变其角度值；智能主体每次执行动作之后都会获得一个四元组(s<sub>t</sub>,a<sub>t</sub>,s<sub>t+1</sub>,r)，该四元组储存了t时刻的经验；获取四元组后，使用大数据存储的方法把四元组保存到外部文件中或云端以便后续过程的使用，文件中每一行数据就是四元经验组，每经过设定的迭代次数，在文件中抽取四元组对Q函数进行更新，使规划的策略达到最优；接下来随机抽取数据更新Q函数，利用随机函数生成的结果如果小于预设值，就抽取并使用当前这组数据，否则跳过；在Q函数的更新过程中，使用RBF神经网络对连续空间下的状态和行为进行拟合，RBF神经网络的输入节点为7个，隐藏层1个，输出节点为1个；输入向量是s(t)和a(t)，分别表示Q函数在t时刻输入的状态和动作，y(t)是隐藏层的激活函数，对于第i个神经元而言，使用以下函数计算输出：<maths num="0001"><math><![CDATA[<mrow><msub><mi>y</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mn>1</mn><mrow><mn>2</mn><msubsup><mi>σ</mi><mi>i</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac><mo>\|</mo><mo>\|</mo><mi>x</mi><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>μ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>\|</mo><msup><mo>\|</mo><mn>2</mn></msup><mo>)</mo></mrow>]]></math><img file="FDA0001018210050000021.GIF" wi="790" he="136" /></maths>其中，μ<sub>i</sub>和σ<sub>i</sub>分别是第i个神经元的中心和标准差；输出层中，Q(t)是Q函数的输出，用如下公式进行更新：<maths num="0002"><math><![CDATA[<mrow><mi>Q</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><msub><mi>y</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001018210050000022.GIF" wi="430" he="127" /></maths>下式定义了Q学习的误差δ，该误差表明了Q函数在学习过程中的收敛程度，定义判断该系统的学习性能的标准：<maths num="0003"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msubsup><mi>δ</mi><mi>Q</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001018210050000023.GIF" wi="318" he="116" /></maths>应用后向传播算法和梯度下降法，对RBF神经网络中每个神经元的输出权重进行更新：<maths num="0004"><math><![CDATA[<mrow><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>α</mi><mi>w</mi></msub><mfrac><mrow><mo>∂</mo><mi>E</mi></mrow><mrow><mo>∂</mo><mi>w</mi></mrow></mfrac></mrow>]]></math><img file="FDA0001018210050000024.GIF" wi="562" he="119" /></maths>其中，α<sub>w</sub>为学习率，对于E(t)和w<sub>i</sub>(t)，有以下关系：<maths num="0005"><math><![CDATA[<mrow><mfrac><mrow><mo>∂</mo><mi>E</mi></mrow><mrow><mo>∂</mo><msub><mi>δ</mi><mi>Q</mi></msub></mrow></mfrac><mo>=</mo><mfrac><mrow><mo>∂</mo><mrow><mo>(</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msubsup><mi>δ</mi><mi>Q</mi><mn>2</mn></msubsup><mo>(</mo><mi>t</mi><mo>)</mo><mo>)</mo></mrow></mrow><mrow><mo>∂</mo><msub><mi>δ</mi><mi>Q</mi></msub></mrow></mfrac><mo>=</mo><msub><mi>δ</mi><mi>Q</mi></msub></mrow>]]></math><img file="FDA0001018210050000025.GIF" wi="510" he="190" /></maths><maths num="0006"><math><![CDATA[<mrow><mfrac><mrow><mo>∂</mo><msub><mi>δ</mi><mi>Q</mi></msub></mrow><mrow><mo>∂</mo><mi>w</mi></mrow></mfrac><mo>=</mo><msub><mi>y</mi><mi>i</mi></msub></mrow>]]></math><img file="FDA0001018210050000026.GIF" wi="208" he="127" /></maths>根据链式法则，对于权重w<sub>i</sub>，更新公式变为：w<sub>i</sub>(t+1)＝w<sub>i</sub>(t)+α<sub>w</sub>δ<sub>Q</sub>(t)y<sub>i</sub>(t)对于每个神经元径向基函数的中心和标准差μ<sub>i</sub>和σ<sub>i</sub>，有以下更新公式：<maths num="0007"><math><![CDATA[<mrow><msub><mi>μ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>μ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>α</mi><mi>μ</mi></msub><msub><mi>δ</mi><mi>Q</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><msub><mi>y</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mfrac><mrow><mi>x</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>μ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow><mrow><msubsup><mi>σ</mi><mi>i</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0001018210050000031.GIF" wi="1062" he="142" /></maths><maths num="0008"><math><![CDATA[<mrow><msub><mi>σ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>σ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>α</mi><mi>σ</mi></msub><msub><mi>δ</mi><mi>Q</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><msub><mi>w</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><msub><mi>y</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mfrac><mrow><mo>\|</mo><mo>\|</mo><mi>x</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>μ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>\|</mo><msup><mo>\|</mo><mn>2</mn></msup></mrow><mrow><msubsup><mi>σ</mi><mi>i</mi><mn>3</mn></msubsup><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0001018210050000032.GIF" wi="1115" he="159" /></maths>其中，α<sub>μ</sub>和α<sub>σ</sub>分别为RBF函数中心和标准差的学习率。
地址	510640 广东省广州市天河区五山路381号