发明名称 |
MapReduce分布式系统的文件迁移方法及设备 |
摘要 |
本发明提供一种MapReduce分布式系统的文件迁移方法及设备。本发明实施例通过启动用于迁移目标文件的迁移作业,所述迁移作业中至少包含并行执行的第一Map任务和第二Map任务,以及所述第一Map任务和所述第二Map任务对应的Reduce任务,使得在Reduce任务中,能够生成所述目标文件在所述目标MapReduce分布式系统中的元数据,由于迁移一目标文件的迁移任务至少包含第一Map任务和第二Map任务,并且所述第一Map任务与所述第二Map任务是并行执行的,因此,会缩短该目标文件的迁移时间,从而提高了目标文件的迁移效率。 |
申请公布号 |
CN103176843A |
申请公布日期 |
2013.06.26 |
申请号 |
CN201310090660.9 |
申请日期 |
2013.03.20 |
申请人 |
百度在线网络技术(北京)有限公司 |
发明人 |
潘瑾瑜 |
分类号 |
G06F9/48(2006.01)I |
主分类号 |
G06F9/48(2006.01)I |
代理机构 |
北京鸿德海业知识产权代理事务所(普通合伙) 11412 |
代理人 |
袁媛 |
主权项 |
一种MapReduce分布式系统的文件迁移方法,其特征在于,包括:启动用于迁移目标文件的迁移作业,所述迁移作业中至少包含并行执行的第一Map任务和第二Map任务,以及所述第一Map任务和所述第二Map任务对应的Reduce任务,所述目标文件至少包括第一数据和第二数据,所述第一数据存储在至少一个第一数据块中,所述第二数据存储在至少一个第二数据块中;在所述第一Map任务中,根据所述目标文件的标识信息和所述至少一个第一数据块的标识信息,将所述第一数据拷贝到目标MapReduce分布式系统中;在所述第二Map任务中,根据所述目标文件的标识信息和所述至少一个第二数据块的标识信息,将所述第二数据拷贝到目标MapReduce分布式系统中;在所述Reduce任务中,根据所述目标文件的标识信息、所述至少一个第一数据块的标识信息和所述至少一个第二数据块的标识信息,生成所述目标文件在所述目标MapReduce分布式系统中的元数据。 |
地址 |
100085 北京市海淀区上地十街10号百度大厦 |