一种强化学驱动的网络地图区域聚类预取方法,申请号CN201610974754.6-传众专利搜索

发明名称	一种强化学驱动的网络地图区域聚类预取方法
摘要	本发明提供的一种强化学驱动的网络地图区域聚类预取方法，同一区域内的瓦片小文件合并为区域聚类大文件，建立强化学驱动的网络地图区域聚类预取模型，模型将记录统计的热点区域和区域空间关系加入Q学参数中，Q值最大的方向对应的区域为对应预取区域。本发明通过对网络地图用户请求区域的缓存，提高对网络地图服务器缓存空间的利用率，网络地图数据以区域聚类大文件的形式缓存和预取，提高了瓦片的缓存和预取质量，结合网络地图自身的特点和历史访问记录，实时动态预测网络地图未来的热点区域并缓存，实现了一种主动大规模高效预取，动态更新且预测准确，能够提高网络地图服务器的性能。
申请公布号	CN106503238A	申请公布日期	2017.03.15
申请号	CN201610974754.6	申请日期	2016.11.07
申请人	王昱淇	发明人	王昱淇
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	一种强化学习驱动的网络地图区域聚类预取方法，其特征在于：网络地图数据为瓦片小文件，同一区域内的瓦片小文件合并为区域聚类大文件，网络地图数据以区域聚类大文件的形式缓存和预取；网络地图服务器运行时，统计一段时间内用户对不同区域的访问次数，选择用户访问次数最多的若干个区域作为当前网络地图的热点区域，根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系；建立强化学习驱动的网络地图区域聚类预取模型，所述强化学习为Q学习，模型将记录统计的热点区域和网络地图的区域空间关系加入Q学习参数中，所述Q学习采用轨迹移动试探评价方法，尝试各区域可能的移动方向，通过试探到达热点区域的最优路径，判断各种移动方向的反馈效果，基于各种移动方向的奖惩值得到各区域各种移动方向上的Q值；各区域不同移动方向中，Q值最大的方向对应的区域为对应预取区域，网络地图用户的当前请求为某一区域时，将这一区域Q值最大的方向对应的区域提前预取；强化学习驱动的网络地图区域聚类预取方法的步骤为：第一步，网络地图数据为瓦片小文件，根据区域划分将同一区域内的瓦片小文件合并为区域聚类大文件，网络地图数据以区域聚类大文件的形式组织和缓存；第二步，网络地图服务器运行，统计一段时间内用户对不同区域的访问次数，选择用户访问次数最多的若干个区域作为当前网络地图的热点区域，根据网络地图的区域划分信息确定同一层内各区域聚类大文件的相邻关系；第三步，建立强化学习驱动的网络地图区域聚类预取模型，所述强化学习为Q学习，模型将记录统计的热点区域和网络地图的区域空间关系加入Q学习参数中，Q学习的Agent每次学习迭代模拟用户的网络地图访问行为，会收到奖励或惩罚信息，以表示移动行为是否正确，Agent从回报结果中学习，Q学习的预取模型的公式为：Q(s，a)＝Q(s，a)+alpha(gamamax Q(s'，a')+r(s，a)‑Q(s，a))s＝s'强化学习驱动的网络地图区域聚类预取模型采用位置‑方向对的奖赏和Q(s，a)作为预测函数，其中s表示当前所处的区域位置，a表示区域s不同方向上的移动动作，Q(s，a)表示在位置s下移动动作a得到的Q值，maxQ(s'，a')表示在当前所处的区域位置s'下，向不同的方向a'移动所能够获得的最大Q值，r(s，a)表示当前所处的区域位置s与热点区域相邻时，在当前所处的区域位置s下通过向a方向移动能够直接到达热点区域所获得的奖赏值，alpha和gama为公式参数，alpha和gama的取值范围为0至1；第四步，启动强化学习驱动的网络地图区域聚类预取模型，Q学习算法迭代计算出不同区域s不同移动方向a上的Q(s，a)；第五步，求得网络地图各区域不同方向上最大Q值，各区域的Q值最大的方向对应的区域为对应预取区域,记录各区域的对应预取区域；第六步，判断网络地图用户请求的区域是否已经缓存或预取，若否，则首先将用户请求的区域聚类大文件缓存，然后从缓存中将用户请求的区域数据发送给用户，若是，则直接在缓存中找到并发送用户请求的区域数据；第七步，判断网络地图用户当前请求区域的对应预取区域是否已经缓存或预取，对应预取区域是当前用户请求的区域Q值最大的方向对应的区域，若否，则将对应预取区域缓存后流程结束，若是，则流程直接结束。
地址	266000 山东省青岛市市南区鱼山路5号