发明名称 数据并行处理方法、系统及负载均衡调度器
摘要 本发明实施例公开了数据并行处理方法、系统及负载均衡调度器,在本发明实施例中,服务器集群中的任一服务器具有执行任务和存储数据的能力。在此基础上,在作业调度层面上,本发明实施例按照计算本地化策略预测不同执行顺序下的系统总体负载均衡状态,选择出可令系统总体负载均衡状态最优的执行顺序,并按此顺序调度作业。在任务调度层面,本发明实施例按照计算本地化策略分配每一进入执行状态的作业。由于计算本地化策略是将每一数据处理任务分配至存储其对应的数据块的服务器上,这样,在处理任务时,同一服务器既作为存储数据块的服务器节点又作为执行任务的服务器节点,减少了服务器节点之间的网络数据传输,提升了数据处理的性能。
申请公布号 CN103226467B 申请公布日期 2015.09.30
申请号 CN201310195179.6 申请日期 2013.05.23
申请人 中国人民解放军国防科学技术大学 发明人 杨树强;华中杰;贾焰;尹洪;赵辉;李爱平;陈志坤;金松昌;周斌;韩伟红;韩毅;舒琦
分类号 G06F9/38(2006.01)I;G06F9/50(2006.01)I 主分类号 G06F9/38(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 王宝筠
主权项 一种数据并行处理方法,其特征在于,基于服务器集群,所述服务器集群中的任一服务器具有执行任务和存储数据的能力;所述方法包括:将用户通过客户端提交的作业放入作业等待队列,并收集所述作业的数据分布信息;所述作业所需处理的数据被划分为多个数据块,并分别存储于所述服务器集群中的服务器上,每一所述数据块对应一个数据处理任务,所述数据分布信息包括所述作业对应的数据块的分布信息;当所述服务器集群正在执行的作业数小于第一阈值时,根据所述数据分布信息,预测在不同执行顺序下按照计算本地化策略分配所述作业等待队列中的作业所导致的系统总体负载均衡状态,获取最优执行顺序;对所述作业等待队列中的作业按所述最优执行顺序进行重新排序,并按照重新排序后的顺序依次调度作业等待队列中的作业进入执行状态,直至所述服务器集群正在执行的作业数达到第一阈值或者等待作业队列为空;按照计算本地化策略分配每一进入执行状态的作业,以便服务器执行数据处理任务;所述按照计算本地化策略分配包括:针对作业所需处理的数据的每一个数据块创建一个数据处理任务,并将每一数据处理任务分配至存储其对应的数据块的服务器上。
地址 410073 湖南省长沙市开福区砚瓦池正街47号