操作条件反射自动机及其在仿生自主学控制中的应用,申请号CN200910086990.4-传众专利搜索

发明名称	操作条件反射自动机及其在仿生自主学控制中的应用
摘要	本发明提出了一种操作条件反射自动机模型，并且基于该模型设计了一种仿生自主学控制的方法。针对自然界系统的控制问题，运用仿生的自组织学方法，设计出一种可用于描述，模拟，设计具有自组织(包括自学和自适应)功能的操作条件反射自动机模型，从而有效的将仿生学、心理学应用于系统的控制。该方法利用操作条件反射自动机模型OCM，首先是由当前系统的输入和状态，随机的选择操作(控制量)，并倾向于选择概率值大的操作，概率值大的操作取向性好。待实施控制后观测状态并对外输出其控制效果，再由取向单元来评价控制后的状态，修改其规则集合概率值，不断得取向性好的行为，以便下次选择更优的行为，最终实现其自主控制。
申请公布号	CN101673354A	申请公布日期	2010.03.17
申请号	CN200910086990.4	申请日期	2009.06.12
申请人	北京工业大学	发明人	阮晓钢;郜园园;蔡建羡;陈静;戴丽珍
分类号	G06N3/00(2006.01)I	主分类号	G06N3/00(2006.01)I
代理机构	北京思海天达知识产权代理有限公司	代理人	刘萍
主权项	1、操作条件反射自动机，操作条件反射自动机以下简称为OCM，其特征在于：是一个八元组OCM＝<A，S，O，Z，R，f，ψ，δ>，其中，(1)OCM的输入符号集合：A＝{a<sub>j</sub>\|j＝0，1，2，…，n<sub>A</sub>}，a<sub>j</sub>为OCM第j个输入符号；(2)OCM的内部状态集合：S＝{s<sub>i</sub>\|i＝0，1，2，…，n<sub>S</sub>}，s<sub>i</sub>为OCM第i个状态符号；(3)OCM的内部操作集合：O＝{o<sub>k</sub>\|k＝1，2，…，n<sub>O</sub>}，o<sub>k</sub>为OCM第k个操作符号；(4)OCM的输出符号集合：Z＝{z<sub>m</sub>\|m＝0，1，2，…，n<sub>Z</sub>}，z<sub>m</sub>为OCM第m个输出符号；(5)OCM的规则集合：R＝{r<sub>ijk</sub>\|i∈{0，1，2，…，n<sub>S</sub>}；j∈{0，1，2，…，n<sub>A</sub>}；k∈{1，2，…，n<sub>O</sub>}}，R的每一个元素r<sub>ijk</sub>∈R代表一条随机“条件-操作”规则：r<sub>ijk</sub>：s<sub>i</sub>×a<sub>j</sub>→o<sub>k</sub>(p<sub>ijk</sub>)即OCM在状态处于s<sub>i</sub>(∈S)和输入为a<sub>j</sub>(∈A)的条件下依概率p<sub>ijk</sub>实施操作o<sub>k</sub>(∈O)，p<sub>ijk</sub>＝p(o<sub>k</sub>\|s<sub>i</sub>∩a<sub>j</sub>)是OCM在状态处于s<sub>i</sub>和输入为a<sub>i</sub>∈A的条件下实施操作o<sub>k</sub>的概率，又称规则r<sub>ijk</sub>的激发概率；15(6)OCM的状态空间方程：<maths num="0001"><![CDATA[<math><mrow><mi>f</mi><mo>:</mo><mfenced open='{' close=''><mtable><mtr><mtd><msub><mi>f</mi><mi>S</mi></msub><mo>:</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>A</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>O</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&RightArrow;</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>f</mi><mi>Z</mi></msub><mo>:</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>A</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>O</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&RightArrow;</mo><mi>Z</mi><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>其中，f<sub>S</sub>是OCM的状态转移方程，OCM t+1时刻的状态s(t+1)(∈S)由t时刻的状态s(t)(∈S)和t时刻输入a(t)(∈A)及t时刻的操作o(t)(∈O)确定，与其t时刻之前的状态、输入和操作无关，并且，f<sub>S</sub>是未知的，但OCM状态转移的结果是OCM自身观测的；f<sub>Z</sub>是OCM的输出方程，OCMt+1时刻的输出z(t+1)(∈Z)由t时刻的状态s(t)(∈S)和t时刻输入a(t)(∈A)及t时刻的操作o(t)(∈O)确定，与其t时刻之前的状态和输入及操作无关，OCM的输出是外部世界观测的；(7)OCM的状态取向函数：ψ：S×A→[h，q]，h定义为取向性最差的取向函数值，q为取向性最好的取向函数值对于任一s<sub>i</sub>(∈S)和输入a<sub>j</sub>(∈A)，ψ<sub>ij</sub>＝ψ(s<sub>i</sub>，a<sub>j</sub>)是OCM关于状态s<sub>i</sub>和输入a<sub>j</sub>的期望值，如果ψ<sub>ij</sub>＜0，则称s<sub>i</sub>是OCM在输入为a<sub>j</sub>时的负取向状态；如果ψ<sub>ij</sub>＝0，则称s<sub>i</sub>是OCM在输入为a<sub>j</sub>时的零取向状态；如果ψ<sub>ij</sub>＞0，则称s<sub>i</sub>是OCM在输入为a<sub>j</sub>时的正取向状态；(8)OCM的操作条件反射学习律：<img file="A2009100869900002C2.GIF" wi="402" he="48" />设OCM t时刻的状态为s(t)＝s<sub>a</sub>∈S，输入a(t)＝a<sub>b</sub>∈A，依集合R中随机“条件-操作”规则选中的操作为o(t)＝o<sub>c</sub>∈O，实施操作后观测到t+1时刻的状态s(t+1)＝s<sub>d</sub>∈S，则基于操作条件反射原理，操作集合R中随机“条件-操作”规则p<sub>abk</sub>(k＝1，2，…，n<sub>O</sub>)的激发概率依<maths num="0002"><![CDATA[<math><mrow><mi>δ</mi><mo>:</mo><mfenced open='{' close=''><mtable><mtr><mtd><mo>&ForAll;</mo><mi>k</mi><mo>&NotEqual;</mo><mi>c</mi><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mi>ξ</mi><mrow><mo>(</mo><msub><mover><mi>ψ</mi><mo>&RightArrow;</mo></mover><mi>abk</mi></msub><mo>)</mo></mrow><mo>·</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mi>max</mi><mi>min</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo><mn>0,1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>abc</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><munder><mi>Σ</mi><mrow><mi>k</mi><mo>&NotEqual;</mo><mi>c</mi></mrow></munder><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>进行调节，其中，<img file="A2009100869900003C2.GIF" wi="590" he="54" />是OCM在状态处于s<sub>a</sub>(∈S)和输入为a<sub>b</sub>(∈A)的条件下实施操作o<sub>c</sub>(∈O)后状态转移为s<sub>d</sub>(∈S)后取向函数值的变化量，用此变化量来判断该操作的好坏；<img file="A2009100869900003C3.GIF" wi="909" he="107" />是单调增函数，ξ(x)＝0当且仅当<img file="A2009100869900003C4.GIF" wi="180" he="53" />r是操作规则总数，λ是学习率，即每次迭代学习的速率；p<sub>abc</sub>(t)(a∈{0，1，2，…，n<sub>S</sub>}；b∈{0，1，2，…，n<sub>A</sub>}；c∈{1，2，…，n<sub>O</sub>})是OCM状态处于s<sub>a</sub>(∈S)和输入为a<sub>b</sub>(∈A)时实施操作o<sub>c</sub>(∈O)的概率p(o<sub>c</sub>\|s<sub>a</sub>∩a<sub>b</sub>)在t时刻的值，当<img file="A2009100869900003C5.GIF" wi="164" he="52" />时，说明实施操作o<sub>c</sub>(∈O)并转移状态为s<sub>d</sub>(∈S)后的取向函数值变小，即取向性变差，则p<sub>abc</sub>(t+1)＜p<sub>abc</sub>(t)，表示下一时刻选择操作o<sub>c</sub>(∈O)的概率减小；当<img file="A2009100869900003C6.GIF" wi="165" he="52" />时，说明实施操作o<sub>c</sub>(∈O)并转移状态为s<sub>d</sub>(∈S)后的取向函数值不变，即取向性也不变，这时p<sub>abc</sub>(t+1)＝p<sub>abc</sub>(t)，表示下一时刻选择操作o<sub>c</sub>(∈O)的概率不变；当<img file="A2009100869900003C7.GIF" wi="165" he="53" />时，说明实施操作o<sub>c</sub>(∈O)并转移状态为s<sub>d</sub>(∈S)后的取向函数值变大，即取向性变好，则p<sub>abc</sub>(t+1)＞p<sub>abc</sub>(t)，表示下一时刻选择操作o<sub>c</sub>(∈O)的概率增大；其中max min(p<sub>abk</sub>(t+1)，0，1)是当p<sub>abk</sub>(t+1)＞1时p<sub>abk</sub>(t+1)＝1；p<sub>abk</sub>(t+1)＜0时p<sub>abk</sub>(t+1)＝0保证p<sub>abk</sub>(t+1)∈[0，1]，且<img file="A2009100869900003C8.GIF" wi="291" he="119" />即表示在同一输入同一状态下采取不同操作的概率和为1，当t →∞时，若p<sub>abc</sub>(t)→1，说明操作o<sub>c</sub>(∈O)在状态处于s<sub>a</sub>(∈S)和输入为a<sub>b</sub>(∈A)的条件下行为最优；当学习达到迭代次数或者当某一状态处于s<sub>a</sub>(∈S)和输入为a<sub>b</sub>(∈A)的条件下实施操作o<sub>c</sub>(∈O)的概率p<sub>abc</sub>(t)≥p<sub>ε</sub>时停止学习，p<sub>ε</sub>∈[0.7，1]。
地址	100124北京市朝阳区平乐园100号