发明名称 一种基于对等网络的高性能计算系统
摘要 一种基于对等网络的高性能计算系统,包括监控节点,分派节点,计算节点,数据服务器和客户机。监控节点接收客户机提交的应用工程描述文件,管理并监控分派节点的状态以及各任务簇的完成状况;分派节点将任务分派给所属的各计算节点,监控各计算节点的状态以及任务的完成状况,并向监控节点报告;计算节点接收并计算所属分派节点分派的任务,报告任务完成状况,并与数据服务器进行数据交换;数据服务器存储备份应用工程的数据,处理客户机和计算节点的数据请求;客户机提交初始应用工程,管理主任务的启动运行,并得到应用的最终结果。本发明系统具有通用性好、跨平台、编程方便、容错性好和扩展性好的特点,可以克服原有的志愿机计算系统的缺点。
申请公布号 CN100547973C 申请公布日期 2009.10.07
申请号 CN200710052269.4 申请日期 2007.05.23
申请人 华中科技大学 发明人 金海;廖小飞;罗飞;章勤;张浩
分类号 H04L12/26(2006.01)I;H04L12/56(2006.01)I;G06F9/46(2006.01)I 主分类号 H04L12/26(2006.01)I
代理机构 华中科技大学专利中心 代理人 曹葆青
主权项 1、一种基于对等网络的高性能计算系统,其特征在于:该系统包括监控节点(1),分派节点(2.1、2.3、...、2.N,N为正整数),计算节点(3.1、3.3、...、3.K,K为正整数),数据服务器(4)和客户机(5),其中,监控节点(1)接收客户机(5)提交的应用工程描述文件,并将应用中的任务以任务簇的方式重定向给各个分派节点(2.1、2.3、...、2.N);在应用的计算过程中,监控节点(1)监控分派节点(2.1、2.3、...、2.N)的状态以及各个任务簇中任务的完成状况;分派节点(2.1、2.3、...、2.N)将所接收到的任务簇分派给所属的各个计算节点,监控管理域内各个计算节点的状态以及所分派任务的完成状况,并将任务的完成状况向监控节点(1)报告;计算节点(3.1、3.3、...、3.K)附属于各个分派节点,并由所附属的分派节点进行监控和任务分派管理;当某一计算节点接收到分派节点所分派的计算任务后,它从数据服务器(4)获取该计算任务的代码和参数数据,然后启动该任务的运行;在计算过程中,计算节点定时向所属的分派节点报告任务完成状况,在任务计算完成后,计算节点将该任务的结果上传给数据服务器(4);其中,计算节点包括注册模块(31)、客户端存储模块(32)、客户端传输模块(33)和任务控制模块(34);客户端存储模块(32)给计算节点提供工作区间,并对客户端传输模块(33)提供数据支持;它对每个任务的程序、数据以及结果都以文件方式进行管理,并为每个工程建立临时工作目录;注册模块(31)用于管理计算节点的加入和初始化工作,以及存活状态报告;当计算节点要加入系统时,注册模块(31)向监控节点(1)发出加入请求,然后根据监控节点(1)返回的分派节点的地址信息,向该分派节点发出加入请求;当该分派节点返回加入成功的应答消息后,注册模块(31)初始化任务控制模块(34);在计算节点的运行过程中,注册模块(31)周期性地向所属的分派节点报告存活状态;若它不能与所属的分派节点通信,则重新向监控节点(1)发出加入请求,进而加入一个新的分派节点;任务控制模块(34)用于管理计算节点上任务的接收和运行,以及运行状态与结果的报告;当计算节点空闲时,任务控制模块(34)周期性地向分派节点发送任务请求消息;当分派节点有等待运行的任务时,分派一个任务给计算节点;任务控制模块(34)接收到分派节点所分派的任务信息后,通知客户端传输模块(33)向数据服务器(4)请求子任务的代码和参数数据;当该任务的代码和参数数据传输完成后,任务控制模块(34)将客户端存储模块(32)中该任务的初始数据传递给该任务,并启动该任务的计算;在任务计算过程中,任务控制模块(34)周期性地向分派节点报告任务的运行状况;在任务计算完成后,任务控制模块(34)将结果文件放入客户端存储模块(32)中,并将这些文件通过客户端传输模块(33)传输给数据服务器(4);然后,恢复到空闲状态,并将任务完成状况和自身空闲状态报告给分派节点;客户端传输模块(33)接收任务控制模块(34)的数据传输命令,根据这些数据传输命令,并辅助客户端存储模块(32),与数据服务器(4)进行数据传输,当数据传输完成后,客户端传输模块(33)将完成事件通知给任务控制模块(34);数据服务器(4)在应用工程提交阶段接收客户机(5)提交的初始工程数据;在应用工程计算阶段,它处理计算节点的数据请求,传送子任务的代码及参数数据,并接收计算节点上传的子任务的结果数据;在子任务计算完成后,它接收客户机(5)的数据请求,将子任务结果数据传送给客户机(5);客户机(5)向数据服务器(4)提交应用工程的初始数据后,形成一个应用工程描述文件,并将该应用工程描述文件提交给监控节点(1),在应用工程的子任务计算完成后,客户机(5)从数据服务器(4)获取子任务的结果,并通知主任务对这些结果进行汇总处理,得到该应用工程的最终结果。
地址 430074湖北省武汉市洪山区珞瑜路1037号