发明名称 |
一种基于分布式文件系统的海量地学数据并行处理方法 |
摘要 |
本发明公开了一种基于分布式文件系统的海量地学数据并行处理方法。本方法为:1)采用分布式文件系统作为地学数据的存储系统,部署在计算集群上;分布式文件系统拥有统一的名称空间;2)计算集群的作业调度系统将接收的计算作业保存到一等待队列中;3)调度系统从等待队列中选择一个计算作业进入运行队列;4)调度系统根据计算作业信息在分布式文件系统的元数据中查找该计算作业运行需要的数据文件所在的计算节点;5)作业调度系统挑选一持有该计算作业运行需要的数据最多的计算节点;该计算节点远程获取该计算作业需要但该计算节点未持有的数据文件,然后在该计算节点执行该计算作业,并返回执行结果。本方法最大程度的做到了计算本地化。 |
申请公布号 |
CN103198097A |
申请公布日期 |
2013.07.10 |
申请号 |
CN201310076895.2 |
申请日期 |
2013.03.11 |
申请人 |
中国科学院计算机网络信息中心 |
发明人 |
黎建辉;沈庚;周园春;王学志;韦远科;张洋 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
余长江 |
主权项 |
一种基于分布式文件系统的海量地学数据并行处理方法,其步骤为:1)采用分布式文件系统作为地学数据的存储系统,将所述分布式文件系统部署在计算集群上;其中,所述分布式文件系统拥有一个统一的名称空间;2)计算集群的作业调度系统将接收的计算作业保存到一等待队列中;3)作业调度系统从所述等待队列中选择一个计算作业进入运行队列;4)作业调度系统根据进入所述运行队列的计算作业信息,在分布式文件系统的元数据中查找该计算作业运行需要的数据文件所在的计算节点;5)作业调度系统从4)所得计算节点中挑选一持有该计算作业运行需要的数据最多的计算节点;该计算节点远程获取该计算作业需要但该计算节点未持有的数据文件,然后在该计算节点执行该计算作业,并将执行结果返回给作业调度系统;6)作业调度系统从所述运行队列中删除该计算作业。 |
地址 |
100190 北京市海淀区中关村南四街4号 |