发明名称 一种基于渐近贪心行为探索的小区中断补偿方法
摘要 本发明提出一种基于渐近贪心行为探索策略的小区中断补偿方法,属于无线通信自组网领域,该方法采用Sarsa-learning学方法,结合一种渐近贪心的行为探索策略寻找最优解。本发明提出的小区中断补偿方法以天线下倾角为调整参数,采用了增强学中的Sarsa-learning学方法来对各个补偿小区的天线下倾角的配置进行优化,在优化过程中采用的渐近贪心行为探索策略(Boltzmann行为探索策略),能无限遍历整个状态-行为对空间,有效避免了补偿陷入局部最优解中,还大大缩短了补偿过程达到收敛的时间,使得中断小区的用户的服务性能在更短的时间内得到更好的恢复。
申请公布号 CN103517309B 申请公布日期 2016.06.29
申请号 CN201310473951.6 申请日期 2013.10.11
申请人 清华大学 发明人 曾捷;粟欣;肖驰洋;李泽娇;张琛;方娜燕
分类号 H04W24/04(2009.01)I;H04W24/08(2009.01)I;H04L12/24(2006.01)I 主分类号 H04W24/04(2009.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 罗文群
主权项 一种基于渐近贪心行为探索的小区中断补偿方法,其特征在于,该补偿方法包括以下步骤:(1)移动通信网络中通信小区内的用户对与该用户所在小区相邻的六个邻居小区的参考信号接收功率进行测量,并从测量的参考信号接收功率中选择最强的3个参考信号接收功率上传至该用户的服务基站;(2)上述服务基站对用户上报的所有参考信号接收功率进行如下表所示的强度等级划分:<img file="FDA0000914667960000011.GIF" wi="1755" he="742" />(3)通信小区将本通信小区内所有用户上报的同一邻居小区的参考信号接收功率强度等级进行累加,得到本通信小区基站对六个邻居小区的六个综合接收强度,该六个综合接收强度构成一个六维特征向量,定义该六维特征向量为该通信小区的邻居小区参考信号接收功率列表,将最近多个测量周期得到的多个参考信号接收功率列表进行累加,得到一个参考信号接收功率的统计向量,并将该参考信号接收功率的统计向量上报至移动通信网络中该通信小区所属的蜂窝控制中心;(4)当移动通信网络中的通信小区发生通信中断时,移动通信网络的蜂窝控制中心在发生通信中断的通信小区最后一次上报的参考信号接收功率的统计向量中检索出三个最大的分量,并将与该三个最大分量相对应的通信小区选为补偿小区;(5)设补偿小区的补偿状态s为补偿小区当前的天线下倾角的值,将对补偿小区天线下倾角的调整称为补偿小区的补偿行为a,定义补偿行为a的集合为A=(‑101),分别代表补偿小区天线下倾角的减少、不变和增加3种行为;(6)为每个补偿小区建立一个行为值函数表Q,行为值函数表中存储补偿小区的当前补偿状态下每种补偿行为的值函数,对值函数表进行初始化,初始补偿时刻t=0,初始补偿时长为0,对当前补偿状态s<sub>0</sub>按照以下渐近贪心行为探索方法,确定当前天线下倾角的补偿行为a<sub>0</sub>的概率Pr(a|s,t,Q,n<sub>t</sub>(s)):<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>Pr</mi><mrow><mo>(</mo><mi>a</mi><mo>|</mo><mi>s</mi><mo>,</mo><mi>t</mi><mo>,</mo><mi>Q</mi><mo>,</mo><msub><mi>n</mi><mi>t</mi></msub><mo>(</mo><mi>s</mi><mo>)</mo><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mi>e</mi><mrow><msub><mi>&beta;</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mi>Q</mi><mrow><mo>(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo>)</mo></mrow></mrow></msup><mrow><munder><mo>&Sigma;</mo><mrow><mi>b</mi><mo>&Element;</mo><mi>A</mi></mrow></munder><msup><mi>e</mi><mrow><msub><mi>&beta;</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mi>Q</mi><mrow><mo>(</mo><mi>s</mi><mo>,</mo><mi>b</mi><mo>)</mo></mrow></mrow></msup></mrow></mfrac></mrow>]]></math><img file="FDA0000914667960000021.GIF" wi="679" he="195" /></maths>其中:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>&beta;</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>ln</mi><mi> </mi><msub><mi>n</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>s</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>max</mi><mi>a</mi></msub><mo>|</mo><msub><mi>Q</mi><mi>t</mi></msub><mrow><mo>(</mo><mrow><mi>s</mi><mo>,</mo><msub><mi>b</mi><mi>max</mi></msub></mrow><mo>)</mo></mrow><mo>-</mo><msub><mi>Q</mi><mi>t</mi></msub><mrow><mo>(</mo><mrow><mi>s</mi><mo>,</mo><mi>a</mi></mrow><mo>)</mo></mrow><mo>|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0000914667960000022.GIF" wi="719" he="155" /></maths>b<sub>max</sub>=argmax<sub>b∈A</sub>Q<sub>t</sub>(s,b)n<sub>t</sub>(s)为当前时刻t补偿状态s在历史上被访问的次数,A为当前状态下的行为集合,Q<sub>t</sub>(s,a)为当前时刻t下与补偿状态s相对应的补偿行为a的值函数;(7)在小区中断补偿中,中断小区和补偿小区内的用户分别将信干噪比反馈给各自服务基站,补偿小区根据本补偿小区内用户的反馈信息计算本次补偿的回报值,并根据如下Sarsa‑learning的值函数迭代公式更新步骤(6)的行为值函数表Q:Q(s<sub>t</sub>,a<sub>t</sub>)=Q<sub>t</sub>(s<sub>t</sub>,a<sub>t</sub>)+α<sub>t</sub>[r(s<sub>t</sub>,a<sub>t</sub>)+ηQ(s<sub>t+1</sub>,a<sub>t+1</sub>)‑Q(s<sub>t</sub>,a<sub>t</sub>)]其中α<sub>t</sub>为Sarsa‑learning算法的学习因子,η为学习速率调整因子,r(s<sub>t</sub>,a<sub>t</sub>)为补偿状态s<sub>t</sub>和补偿行为a<sub>t</sub>下的回报值,计算公式为:r=ΔCPF=CPF<sub>new</sub>‑CPF<sub>old</sub>,其中,CPF为小区性能函数:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mtable><mtr><mtd><mrow><mi>C</mi><mi>P</mi><mi>F</mi><mo>=</mo><mi>&beta;</mi><mi>&gamma;</mi><mo>&times;</mo><msub><mi>SE</mi><mrow><mi>e</mi><mi>d</mi><mi>g</mi><mi>e</mi></mrow></msub><mrow><mo>(</mo><mrow><msub><mi>outage</mi><mrow><mi>c</mi><mi>e</mi><mi>l</mi><mi>l</mi></mrow></msub></mrow><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><mi>&gamma;</mi></mrow><mo>)</mo></mrow><mi>&beta;</mi><mo>&times;</mo><msub><mi>SE</mi><mrow><mi>a</mi><mi>v</mi><mi>e</mi></mrow></msub><mrow><mo>(</mo><mrow><msub><mi>outage</mi><mrow><mi>c</mi><mi>e</mi><mi>l</mi><mi>l</mi></mrow></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mo>+</mo><mi>&gamma;</mi><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><mi>&beta;</mi></mrow><mo>)</mo></mrow><mo>&times;</mo><msub><mi>SE</mi><mrow><mi>a</mi><mi>v</mi><mi>e</mi></mrow></msub><mrow><mo>(</mo><mrow><msub><mi>compen</mi><mrow><mi>c</mi><mi>e</mi><mi>l</mi><mi>l</mi></mrow></msub></mrow><mo>)</mo></mrow></mrow></mtd></mtr></mtable><mo>;</mo></mrow>]]></math><img file="FDA0000914667960000023.GIF" wi="1210" he="187" /></maths>上式中,SE<sub>edge</sub>(outage<sub>cell</sub>)表示中断小区的边缘频谱效率,等于该中断小区内用户频谱效率累积分布函数的低5%;SE<sub>ave</sub>(outage<sub>cell</sub>)表示中断小区的平均频谱效率,等于中断小区内用户频谱效率的低50%;SE<sub>ave</sub>(compen<sub>cell</sub>)表示补偿小区的平均频谱效率,等于补偿小区内用户频谱效率的低50%;γ为覆盖和容量的折中因子,0<γ<1,β为补偿小区性能与中断小区性能的折中因子,0<β<1;(8)设定一个补偿小区回报值阈值Δreward和一个补偿时长上限T<sub>sup</sub>,若上述回报值r大于Δreward,且补偿时刻小于补偿时长上限T<sub>sup</sub>,则每个补偿小区根据当前行为值函数表Q,利用上述步骤(6)和(7)中的渐近贪心行为探索方法,计算得到补偿小区天线下倾角的补偿行为,并根据该补偿行为,计算下一时刻补偿状态s<sub>t+1</sub>,若上述回报值r小于或等于Δreward,或补偿时刻大于补偿时长上限T<sub>sup</sub>,则补偿结束。
地址 100084 北京市海淀区清华园1号