发明名称 | 一种用于分布式文件系统中大数据查询的调度方法 | ||
摘要 | 本发明公开了一种用于分布式文件系统中大数据查询的调度方法,包括如下步骤:(1)按照预设的时间周期定期获取所述分布式文件系统的集群负载信息;(2)根据查询语句构建查询计划树、确定查询种类和需要查询的数据表,并根据查询种类确定最终调度策略;(3)根据所述的最终调度策略,为所述查询计划树中各个结点选择执行节点以完成并行查询执行调度。本发明的调度以查询响应时间为优化目标,能够得到更优的查询并行执行调度;区分单表查询和多表查询,考虑通信代价对查询响应时间的影响。尤其是在多查询任务并发执行的情况下,其通过负载均衡,可以更好的满足大数据查询的实时性需求。 | ||
申请公布号 | CN104408106A | 申请公布日期 | 2015.03.11 |
申请号 | CN201410670696.9 | 申请日期 | 2014.11.20 |
申请人 | 浙江大学 | 发明人 | 陈岭;赵宇亮 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 杭州天勤知识产权代理有限公司 33224 | 代理人 | 胡红娟 |
主权项 | 一种用于分布式文件系统中大数据查询的调度方法,其特征在于,包括如下步骤:(1)按照预设的时间周期定期获取所述分布式文件系统的集群负载信息,所述集群负载为分布式文件系统中各个节点的负载信息;各个节点的负载信息为该节点的磁盘完成当前I/O任务所需的时间;(2)根据查询语句构建查询计划树、确定查询种类和需要查询的数据表,并根据查询种类为各个需要查询的数据表进行副本选择,得到最终调度策略:若查询种类为单表查询,则以负载均衡为调度目标并根据所述的集群负载确定需要查询的数据表的最终调度策略;若查询种类为多表查询,则以查询响应时间最小为调度目标并根据所述的集群负载确定需要查询的数据表的最终调度策略;(3)根据所述的最终调度策略,为所述查询计划树中各个结点选择执行节点以完成并行查询执行调度。 | ||
地址 | 310027 浙江省杭州市西湖区浙大路38号 |