基于CMAC网络的群控电梯调度方法,申请号CN200610040554.X-传众专利搜索

发明名称	基于CMAC网络的群控电梯调度方法
摘要	本发明公开了一种基于CMAC网络的群控电梯调度方法，其步骤为：(1)确定静态参数、动态参数、乘客到达模型、CMAC网络参数和强化学参数，然后触发电梯群控系统；(2)观察电梯状态计算得出Q(x，run)和Q(x，stop)；(3)选择电梯动作；(4)令电梯i的下一个决策点发生在t<SUB>y</SUB>时刻，其相应的状态为y，更新所有电梯的获得R[i]值；(5)调节电梯I的Q(s，a)的估值；(6)根据式：更新CMAC网络权值；(7)将x←y，t<SUB>x</SUB>←t<SUB>y</SUB>..转至步骤1，从而实现群控电梯调度。本方法的显著优点是能有效地减少乘客平均等待时间，提高电梯调度的性能。
申请公布号	CN100413771C	申请公布日期	2008.08.27
申请号	CN200610040554.X	申请日期	2006.05.24
申请人	南京大学	发明人	高阳;胡景凯
分类号	B66B1/18(2006.01)	主分类号	B66B1/18(2006.01)
代理机构	南京苏高专利商标事务所	代理人	柏尚春
主权项	1. 一种基于CMAC网络的群控电梯调度方法，其特征在于，该方法包括以下步骤：(1)确定静态参数、动态参数、乘客到达模型、CMAC网络参数和强化学习参数，然后触发电梯群控系统，其中，静态参数为电梯数目和楼层数目，动态参数为层间运行时间、电梯停止/转向时间和乘客进出电梯时间，乘客到达模型参数为乘客到达时间分布，CMAC网络参数为输入节点、输出节点和泛化参数，强化学习参数为指数衰减速率β和学习率α；(2)设在tx时刻电梯i到达一个决策点，观察得到状态为x，根据CMAC网络计算得出Q(x，run)和Q(x，stop)，其中，Q(x，run)为在x状态下电梯继续运行的Q值函数，Q(x，stop)为电梯停靠的Q值函数；(3)根据以下公式选择动作a：<math><mrow><mi>Pr</mi><mrow><mo>(</mo><mi>stop</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mi>e</mi><mrow><mi>Q</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>run</mi><mo>)</mo></mrow><mo>/</mo><mi>T</mi></mrow></msup><mrow><msup><mi>e</mi><mrow><mi>Q</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>stop</mi><mo>)</mo></mrow><mo>/</mo><mi>T</mi></mrow></msup><mo>+</mo><msup><mi>e</mi><mrow><mi>Q</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>run</mi><mo>)</mo></mrow><mo>/</mo><mi>T</mi></mrow></msup></mrow></mfrac></mrow></math> 其中，T为温度参数且T＞0；(4)令电梯i的下一个决策点发生在ty时刻，其相应的状态为y，根据式<math><mrow><mi>ΔR</mi><mrow><mo>[</mo><mi>i</mi><mo>]</mo><mo></mo></mrow><mo>=</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>β</mi><mrow><mo>(</mo><msub><mi>t</mi><mn>0</mn></msub><mo>-</mo><mi>d</mi><mo>[</mo><mi>i</mi><mo>]</mo><mo>)</mo></mrow></mrow></msup><munder><mi>Σ</mi><mi>b</mi></munder><mo>{</mo><mfrac><mrow><msub><mrow><mn>2</mn><mi>λ</mi></mrow><mi>b</mi></msub><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>β</mi><mrow><mo>(</mo><msub><mi>t</mi><mn>1</mn></msub><mo>-</mo><msub><mi>t</mi><mn>0</mn></msub><mo>)</mo></mrow></mrow></msup><mo>)</mo></mrow></mrow><msup><mi>β</mi><mn>4</mn></msup></mfrac><mo>+</mo><mrow><mo>(</mo><mfrac><mn>2</mn><msup><mi>β</mi><mn>3</mn></msup></mfrac><mo>+</mo><mfrac><mrow><mn>2</mn><msub><mi>w</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow></mrow><msup><mi>β</mi><mn>2</mn></msup></mfrac><mo>+</mo><mfrac><mrow><msubsup><mi>w</mi><mn>0</mn><mn>2</mn></msubsup><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow></mrow><mi>β</mi></mfrac><mo>)</mo></mrow></mrow></math> <math><mrow><msup><mrow><mo>-</mo><mi>e</mi></mrow><mrow><mo>-</mo><mi>β</mi><mrow><mo>(</mo><msub><mi>t</mi><mn>1</mn></msub><mo>-</mo><msub><mi>t</mi><mn>0</mn></msub><mo>)</mo></mrow></mrow></msup><mrow><mo>(</mo><mfrac><mn>2</mn><msup><mi>β</mi><mn>3</mn></msup></mfrac><mo>+</mo><mfrac><mrow><msub><mrow><mn>2</mn><mi>w</mi></mrow><mn>1</mn></msub><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow></mrow><msup><mi>β</mi><mn>2</mn></msup></mfrac><mo>+</mo><mfrac><mrow><msubsup><mi>w</mi><mn>1</mn><mn>2</mn></msubsup><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow></mrow><mi>β</mi></mfrac><mo>)</mo></mrow><mo>+</mo><msub><mi>λ</mi><mi>b</mi></msub><mo>[</mo><mrow><mo>(</mo><mfrac><mrow><msub><mrow><mn>2</mn><mi>w</mi></mrow><mn>0</mn></msub><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow></mrow><msup><mi>β</mi><mn>3</mn></msup></mfrac><mo>+</mo><mfrac><mrow><msubsup><mi>w</mi><mn>0</mn><mn>2</mn></msubsup><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow></mrow><msup><mi>β</mi><mn>2</mn></msup></mfrac><mo>+</mo><mfrac><mrow><msubsup><mi>w</mi><mn>0</mn><mn>3</mn></msubsup><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow></mrow><mrow><mn>3</mn><mi>β</mi></mrow></mfrac><mo>)</mo></mrow><mo>-</mo></mrow></math> <math><mrow><msup><mi>e</mi><mrow><mo>-</mo><mi>β</mi><mrow><mo>(</mo><msub><mi>t</mi><mn>1</mn></msub><mo>-</mo><msub><mi>t</mi><mn>0</mn></msub><mo>)</mo></mrow></mrow></msup><mrow><mo>(</mo><mfrac><mrow><msub><mrow><mn>2</mn><mi>w</mi></mrow><mn>1</mn></msub><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow></mrow><msup><mi>β</mi><mn>3</mn></msup></mfrac><mo>+</mo><mfrac><mrow><msubsup><mi>w</mi><mn>1</mn><mn>2</mn></msubsup><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow></mrow><msup><mi>β</mi><mn>2</mn></msup></mfrac><mo>+</mo><mfrac><mrow><msubsup><mi>w</mi><mn>1</mn><mn>3</mn></msubsup><mrow><mo>(</mo><mi>b</mi><mo>)</mo></mrow></mrow><mrow><mn>3</mn><mi>β</mi></mrow></mfrac><mo>)</mo></mrow><mo>]</mo><mo>}</mo><mo>,</mo></mrow></math> 更新所有电梯的获得R[i]值，其中，R[i]为第i部电梯从其上一次决策时间点d[i]时开始累计的总折扣强化值，t0为上一事件发生的时间，t1为当前事件发生的时间，对于每个在t0和t1之间有效的电梯呼叫键b而言，令w0(b)和w1(b)分别为t0和t1时刻按钮b按下后逝去的时间，式中β为指数衰减速率，λ为顾客的泊松到达率；(5)电梯i根据式：<math><mrow><mi>Q</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>a</mi><mo>)</mo></mrow><mo>&LeftArrow;</mo><mi>R</mi><mo>[</mo><mi>i</mi><mo>]</mo><mo>+</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>β</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>y</mi></msub><mo>-</mo><msub><mi>t</mi><mi>x</mi></msub><mo>)</mo></mrow></mrow></msup><munder><mi>min</mi><mrow><msup><mi>a</mi><mo>′</mo></msup><mo>&Element;</mo><mo>{</mo><mi>stop</mi><mo>,</mo><mi>cont</mi><mo>}</mo></mrow></munder><msub><mi>Q</mi><mi>cmac</mi></msub><mrow><mo>(</mo><mi>y</mi><mo>,</mo><msup><mi>a</mi><mo>′</mo></msup><mo>)</mo></mrow></mrow></math> 调节其Q(s，a)的估值；(6)根据式：<math><mrow><mi>ΔW</mi><mo>=</mo><mi>α</mi><mo>[</mo><mi>R</mi><mo>[</mo><mi>i</mi><mo>]</mo><mo>+</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>β</mi><mrow><mo>(</mo><msub><mi>t</mi><mi>y</mi></msub><mo>-</mo><msub><mi>t</mi><mi>x</mi></msub><mo>)</mo></mrow></mrow></msup><munder><mi>min</mi><mrow><msup><mi>a</mi><mo>′</mo></msup><mo>&Element;</mo><mo>{</mo><mi>stop</mi><mo>,</mo><mi>cont</mi><mo>}</mo></mrow></munder><msub><mi>Q</mi><mi>cmac</mi></msub><mrow><mo>(</mo><mi>y</mi><mo>,</mo><msup><mi>a</mi><mo>′</mo></msup><mo>,</mo><mi>W</mi><mo>)</mo></mrow></mrow></math> <math><mrow><mo>-</mo><msub><mi>Q</mi><mi>cmac</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>a</mi><mo>,</mo><mi>W</mi><mo>)</mo></mrow><mo>]</mo><msub><mo>&dtri;</mo><mi>W</mi></msub><msub><mi>Q</mi><mi>cmac</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>a</mi><mo>,</mo><mi>W</mi><mo>)</mo></mrow></mrow></math>更新CMAC网络权值；(7)将x←y，tx←ty..转至步骤1，从而实现群控电梯调度。
地址	210093江苏省南京市汉口路22号