发明名称 一种基于元调度环的多集群作业调度方法
摘要 本发明提出了一种基于元调度环的多集群作业调度方法。该方法基于多集群间建立的元调度环,将用户提交到作业主节点的作业,由作业主节点通过发送添加作业的消息将作业添加到多个集群上、要执行作业的集群节点通过发送取消作业的消息并比较运行作业的权值来决定运行该作业的集群,避免多集群执行作业的冲突,从而完成作业在多集群间的调度。本发明提供的调度方法通过将作业插入元调度环上的多个集群本地队列中,增加作业被调度的机会,提高集群资源的利用率,避免单点失效、网络负担过重等问题,并具有良好的可扩展性。
申请公布号 CN101340423B 申请公布日期 2011.02.02
申请号 CN200810118173.8 申请日期 2008.08.13
申请人 北京航空航天大学 发明人 荣晓慧;邓攀;陈峰;马世龙;伊胜伟;孙超赟;于冰;梁峰
分类号 H04L29/02(2006.01)I;H04L29/08(2006.01)I;H04L12/42(2006.01)I;H04L12/56(2006.01)I;G06F13/14(2006.01)I 主分类号 H04L29/02(2006.01)I
代理机构 北京永创新实专利事务所 11121 代理人 周长琪
主权项 一种基于元调度环的多集群作业调度方法,其特征在于,包括如下步骤:步骤一:元调度环上的作业主节点接收到用户的作业请求,并根据作业请求生成作业添加消息;所述的作业添加消息,其结构包括:消息类型、作业ID、用户ID、作业主节点名称、添加作业标识、作业添加节点列表、作业JSDL描述;消息中作业添加节点列表为可变长数组结构,其余各字段为可变长字符串结构且之间用空格来划分;步骤二:作业主节点的本地资源匹配器根据作业添加消息判断作业主节点的资源是否能够满足作业描述信息中的需求,如果能,则由作业主节点的本地调度器判断作业主节点的本地队列中有无其他作业,如果无,则作业主节点开始执行该作业,并将作业调度结果返回给用户,本方法结束;否则将作业添加到作业主节点的本地队列中,将作业添加消息沿元调度环转发至下一集群节点;如果作业主节点的资源不能够满足作业描述信息中的需求,则将作业添加消息沿元调度环转发至下一集群节点;步骤三:元调度环上的下一集群节点接收到作业添加消息后,集群节点的本地资源匹配器根据作业添加消息判断集群节点的资源是否能够满足作业描述信息中的需求,如果能,则由该集群节点的本地调度器判断该集群节点的本地队列中有无其他作业,如果无,则此集群节点能立即执行该作业,则转到步骤五;否则该集群节点将作业添加到本地作业队列中,将作业添加消息沿元调度环转发至下一集群节点;如果集群节点的本地资源匹配器判断集群节点的资源不能够满足作业描述信息中的需求,则将作业添加消息沿元调度环转发至下一集群节点;步骤四:元调度环上的集群节点通过本地调度器判断本地作业队列中是否有要执行的作业,如果有,则转到步骤五;否则继续等待直至有作业要执行;步骤五:此集群节点创建作业取消消息,并沿元调度环转发作业取消消息,通知其他本地队列中含有该作业的集群节点取消该作业的执行;所述的作业取消消息取消了作业在元调度环上其他集群节点的执行,完成作业的调度;其结构包括:消息类型、作业ID、消息源节点、作业运行权值、作业运行标识;消息中各字段为可变长字符串且之间用空格来划分;步骤六:要执行作业的集群节点收到返回的作业取消消息后,解析该消息中的作业运行标识字段,如果元调度环上有运行该作业权限更高的集群节点,则不执行该作业,由作业权限更高的集群节点发送的取消作业消息将该作业取消;否则集群节点开始执行作业,并将作业调度结果返回给用户。
地址 100083 北京市海淀区学院路37号