基于Q学资源分配策略的异构网络准入控制方法,申请号CN201310167173.8-传众专利搜索

发明名称	基于Q学资源分配策略的异构网络准入控制方法
摘要	基于Q学资源分配策略的异构网络准入控制方法，涉及一种异构网络准入控制方法。它是为了在兼顾网络整体性能和用户QoS需求，实现在异构网络的网络拥塞情况下进行用户呼叫准入控制。本发明采用Q学方法控制门限控制模块中的门限设定，利用Q学的自学性质，动态的对有限的无线分配资源优先级分配。通过一段时间的学，能够找到在不同的网络状态下，资源分配的最优策略。这样，用户的准入控制能够适应动态变化的网络环境，尤其在异构网络拥塞情况下，本发明的方法仍具有效性。本发明适用于异构网络下用户的准入控制。
申请公布号	CN103220751B	申请公布日期	2016.03.30
申请号	CN201310167173.8	申请日期	2013.05.08
申请人	哈尔滨工业大学	发明人	徐玉滨;陈佳美;马琳;赵洪林;崔扬;杨松
分类号	H04L1/00(2006.01)I;H04L29/06(2006.01)I;H04W48/06(2009.01)I	主分类号	H04L1/00(2006.01)I
代理机构	哈尔滨市松花江专利商标事务所 23109	代理人	张宏威
主权项	基于Q学习资源分配策略的异构网络准入控制方法，其特征是：它由以下步骤实现：步骤一、在离线阶段，定义Q学习中的可执行动作集A，用于在Q学习过程中，设定两个不同的资源分配门限TH<sub>1</sub>与TH<sub>2</sub>；定义系统的立即回报函数p<sub>t</sub>(e,a)，用于在每个当前状态e<sub>t</sub>下系统执行可用动作后，作为网络环境对系统执行动作的回报，来判断系统执行动作的正确程度，其中e为异构网络状态；初始化Q值表，对于每个可用的动作a分配一个对应的Q值，形成一个Q值表，对每个Q值在[0，1]区间内随机赋值；步骤二、在在线阶段，步骤二一、测量并记录WCDMA/WLAN异构网络t时刻下的网络状态e<sub>t</sub>，作为门限估计模块的输入参数；t的初始值为1；步骤二二、当用户发起新呼叫或者切换呼叫时，采用门限估计模块根据t时刻下的网络状态e<sub>t</sub>和与可用动作a对应的Q值表中最大Q值相应的动作来进行门限设定；并采用网络选择模块根据t时刻下的网络状态e<sub>t</sub>和门限估计模块设定的门限接入或拒绝接入该用户，并记录当前的立即回报函数p<sub>t</sub>(e,a)；步骤二三、将t的值加1，测量并记录WCDMA/WLAN异构网络在t+1时刻下的网络状态e<sub>t+1</sub>；步骤二四、根据公式：Q<sub>t+1</sub>(e,a)＝(1‑α)Q<sub>t</sub>(e,a)+α{p<sub>t</sub>(e,a)+βV<sub>t</sub>(e)}对Q值表进行更新；式中：α是学习强度，α＝0.1～0.2；β为折扣因子，且0<β<1；Q<sub>t+1</sub>(e,a)为异构网络在t+1时刻下的网络状态e<sub>t+1</sub>下，更新后的Q值；Q<sub>t</sub>(e,a)为前一网络状态为t时刻下的网络状态e<sub>t</sub>下的Q值，V<sub>t</sub>(e)为值函数，所述V<sub>t</sub>(e)的值通过公式：<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>V</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mi>b</mi></munder><mo>{</mo><msub><mi>Q</mi><mi>t</mi></msub><mo>(</mo><mrow><mi>e</mi><mo>,</mo><mi>b</mi></mrow><mo>)</mo><mo>}</mo></mrow>]]></math><img file="FDA0000793938180000011.GIF" wi="436" he="87" /></maths>获得，其中b是在t时刻下的网络状态e<sub>t</sub>时的可选动作；步骤二五、判断t+1时刻下的网络状态e<sub>t+1</sub>时Q值与t时刻下的网络状态e<sub>t</sub>的Q值的差值△Q(e,a)，是否满足收敛条件△Q(e,a)<ε,<img file="FDA0000793938180000021.GIF" wi="164" he="62" />a∈A，其中E为网络状态集；如果判断结果为是，则令t的值加1，并返回执行步骤二一；如果判断结果为否，则执行步骤二六；步骤二六、完成基于Q学习资源分配策略的异构网络准入控制。
地址	150001 黑龙江省哈尔滨市南岗区西大直街92号