发明名称 操作条件反射自动机及其在仿生自主学控制中的应用
摘要 本发明提出了一种操作条件反射自动机模型,并且基于该模型设计了一种仿生自主学控制的方法。针对自然界系统的控制问题,运用仿生的自组织学方法,设计出一种可用于描述,模拟,设计具有自组织(包括自学和自适应)功能的操作条件反射自动机模型,从而有效的将仿生学、心理学应用于系统的控制。该方法利用操作条件反射自动机模型OCM,首先是由当前系统的输入和状态,随机的选择操作(控制量),并倾向于选择概率值大的操作,概率值大的操作取向性好。待实施控制后观测状态并对外输出其控制效果,再由取向单元来评价控制后的状态,修改其规则集合概率值,不断得取向性好的行为,以便下次选择更优的行为,最终实现其自主控制。
申请公布号 CN101673354A 申请公布日期 2010.03.17
申请号 CN200910086990.4 申请日期 2009.06.12
申请人 北京工业大学 发明人 阮晓钢;郜园园;蔡建羡;陈静;戴丽珍
分类号 G06N3/00(2006.01)I 主分类号 G06N3/00(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 代理人 刘 萍
主权项 1、操作条件反射自动机,操作条件反射自动机以下简称为OCM,其特征在于:是一个八元组OCM=&lt;A,S,O,Z,R,f,ψ,δ&gt;,其中,(1)OCM的输入符号集合:A={a<sub>j</sub>|j=0,1,2,…,n<sub>A</sub>},a<sub>j</sub>为OCM第j个输入符号;(2)OCM的内部状态集合:S={s<sub>i</sub>|i=0,1,2,…,n<sub>S</sub>},s<sub>i</sub>为OCM第i个状态符号;(3)OCM的内部操作集合:O={o<sub>k</sub>|k=1,2,…,n<sub>O</sub>},o<sub>k</sub>为OCM第k个操作符号;(4)OCM的输出符号集合:Z={z<sub>m</sub>|m=0,1,2,…,n<sub>Z</sub>},z<sub>m</sub>为OCM第m个输出符号;(5)OCM的规则集合:R={r<sub>ijk</sub>|i∈{0,1,2,…,n<sub>S</sub>};j∈{0,1,2,…,n<sub>A</sub>};k∈{1,2,…,n<sub>O</sub>}},R的每一个元素r<sub>ijk</sub>∈R代表一条随机“条件-操作”规则:r<sub>ijk</sub>:s<sub>i</sub>×a<sub>j</sub>→o<sub>k</sub>(p<sub>ijk</sub>)即OCM在状态处于s<sub>i</sub>(∈S)和输入为a<sub>j</sub>(∈A)的条件下依概率p<sub>ijk</sub>实施操作o<sub>k</sub>(∈O),p<sub>ijk</sub>=p(o<sub>k</sub>|s<sub>i</sub>∩a<sub>j</sub>)是OCM在状态处于s<sub>i</sub>和输入为a<sub>i</sub>∈A的条件下实施操作o<sub>k</sub>的概率,又称规则r<sub>ijk</sub>的激发概率;15(6)OCM的状态空间方程:<maths num="0001"><![CDATA[<math><mrow><mi>f</mi><mo>:</mo><mfenced open='{' close=''><mtable><mtr><mtd><msub><mi>f</mi><mi>S</mi></msub><mo>:</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&times;</mo><mi>A</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&times;</mo><mi>O</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&RightArrow;</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>f</mi><mi>Z</mi></msub><mo>:</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&times;</mo><mi>A</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&times;</mo><mi>O</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&RightArrow;</mo><mi>Z</mi><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>其中,f<sub>S</sub>是OCM的状态转移方程,OCM t+1时刻的状态s(t+1)(∈S)由t时刻的状态s(t)(∈S)和t时刻输入a(t)(∈A)及t时刻的操作o(t)(∈O)确定,与其t时刻之前的状态、输入和操作无关,并且,f<sub>S</sub>是未知的,但OCM状态转移的结果是OCM自身观测的;f<sub>Z</sub>是OCM的输出方程,OCMt+1时刻的输出z(t+1)(∈Z)由t时刻的状态s(t)(∈S)和t时刻输入a(t)(∈A)及t时刻的操作o(t)(∈O)确定,与其t时刻之前的状态和输入及操作无关,OCM的输出是外部世界观测的;(7)OCM的状态取向函数:ψ:S×A→[h,q],h定义为取向性最差的取向函数值,q为取向性最好的取向函数值对于任一s<sub>i</sub>(∈S)和输入a<sub>j</sub>(∈A),ψ<sub>ij</sub>=ψ(s<sub>i</sub>,a<sub>j</sub>)是OCM关于状态s<sub>i</sub>和输入a<sub>j</sub>的期望值,如果ψ<sub>ij</sub><0,则称s<sub>i</sub>是OCM在输入为a<sub>j</sub>时的负取向状态;如果ψ<sub>ij</sub>=0,则称s<sub>i</sub>是OCM在输入为a<sub>j</sub>时的零取向状态;如果ψ<sub>ij</sub>>0,则称s<sub>i</sub>是OCM在输入为a<sub>j</sub>时的正取向状态;(8)OCM的操作条件反射学习律:<img file="A2009100869900002C2.GIF" wi="402" he="48" />设OCM t时刻的状态为s(t)=s<sub>a</sub>∈S,输入a(t)=a<sub>b</sub>∈A,依集合R中随机“条件-操作”规则选中的操作为o(t)=o<sub>c</sub>∈O,实施操作后观测到t+1时刻的状态s(t+1)=s<sub>d</sub>∈S,则基于操作条件反射原理,操作集合R中随机“条件-操作”规则p<sub>abk</sub>(k=1,2,…,n<sub>O</sub>)的激发概率依<maths num="0002"><![CDATA[<math><mrow><mi>&delta;</mi><mo>:</mo><mfenced open='{' close=''><mtable><mtr><mtd><mo>&ForAll;</mo><mi>k</mi><mo>&NotEqual;</mo><mi>c</mi><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mi>&xi;</mi><mrow><mo>(</mo><msub><mover><mi>&psi;</mi><mo>&RightArrow;</mo></mover><mi>abk</mi></msub><mo>)</mo></mrow><mo>&CenterDot;</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mi>max</mi><mi>min</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo><mn>0,1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>abc</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><munder><mi>&Sigma;</mi><mrow><mi>k</mi><mo>&NotEqual;</mo><mi>c</mi></mrow></munder><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>进行调节,其中,<img file="A2009100869900003C2.GIF" wi="590" he="54" />是OCM在状态处于s<sub>a</sub>(∈S)和输入为a<sub>b</sub>(∈A)的条件下实施操作o<sub>c</sub>(∈O)后状态转移为s<sub>d</sub>(∈S)后取向函数值的变化量,用此变化量来判断该操作的好坏;<img file="A2009100869900003C3.GIF" wi="909" he="107" />是单调增函数,ξ(x)=0当且仅当<img file="A2009100869900003C4.GIF" wi="180" he="53" />r是操作规则总数,λ是学习率,即每次迭代学习的速率;p<sub>abc</sub>(t)(a∈{0,1,2,…,n<sub>S</sub>};b∈{0,1,2,…,n<sub>A</sub>};c∈{1,2,…,n<sub>O</sub>})是OCM状态处于s<sub>a</sub>(∈S)和输入为a<sub>b</sub>(∈A)时实施操作o<sub>c</sub>(∈O)的概率p(o<sub>c</sub>|s<sub>a</sub>∩a<sub>b</sub>)在t时刻的值,当<img file="A2009100869900003C5.GIF" wi="164" he="52" />时,说明实施操作o<sub>c</sub>(∈O)并转移状态为s<sub>d</sub>(∈S)后的取向函数值变小,即取向性变差,则p<sub>abc</sub>(t+1)<p<sub>abc</sub>(t),表示下一时刻选择操作o<sub>c</sub>(∈O)的概率减小;当<img file="A2009100869900003C6.GIF" wi="165" he="52" />时,说明实施操作o<sub>c</sub>(∈O)并转移状态为s<sub>d</sub>(∈S)后的取向函数值不变,即取向性也不变,这时p<sub>abc</sub>(t+1)=p<sub>abc</sub>(t),表示下一时刻选择操作o<sub>c</sub>(∈O)的概率不变;当<img file="A2009100869900003C7.GIF" wi="165" he="53" />时,说明实施操作o<sub>c</sub>(∈O)并转移状态为s<sub>d</sub>(∈S)后的取向函数值变大,即取向性变好,则p<sub>abc</sub>(t+1)>p<sub>abc</sub>(t),表示下一时刻选择操作o<sub>c</sub>(∈O)的概率增大;其中max min(p<sub>abk</sub>(t+1),0,1)是当p<sub>abk</sub>(t+1)>1时p<sub>abk</sub>(t+1)=1;p<sub>abk</sub>(t+1)<0时p<sub>abk</sub>(t+1)=0保证p<sub>abk</sub>(t+1)∈[0,1],且<img file="A2009100869900003C8.GIF" wi="291" he="119" />即表示在同一输入同一状态下采取不同操作的概率和为1,当t →∞时,若p<sub>abc</sub>(t)→1,说明操作o<sub>c</sub>(∈O)在状态处于s<sub>a</sub>(∈S)和输入为a<sub>b</sub>(∈A)的条件下行为最优;当学习达到迭代次数或者当某一状态处于s<sub>a</sub>(∈S)和输入为a<sub>b</sub>(∈A)的条件下实施操作o<sub>c</sub>(∈O)的概率p<sub>abc</sub>(t)≥p<sub>ε</sub>时停止学习,p<sub>ε</sub>∈[0.7,1]。
地址 100124北京市朝阳区平乐园100号