发明名称 |
Hadoop分布式文件系统数据文件的生命周期管理方法和设备 |
摘要 |
本申请实施例公开了一种Hadoop分布式文件系统数据文件的生命周期管理方法和设备,在当前所存储的元数据中分离叶子目录,将相应文件大小的属性赋予叶子目录,并根据各叶子目录的业务时间进行归一化处理,得到归一化目录,然后,根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,并根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理,从而将数据的业务时间的概念引入数据存储和管理过程中,解决了在现有的生命周期管理过程中需要针对不同类型和级别的数据进行大规模数据标识,所带来的巨大数据处理量,同时有效的利用了数据文件自身的时间属性提升了数据处理的效率,最终解决了分布式文件系统的数据文件属性标识以及生命周期管理问题。 |
申请公布号 |
CN103778148B |
申请公布日期 |
2017.04.12 |
申请号 |
CN201210406635.2 |
申请日期 |
2012.10.23 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
熊佳树 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鑫媛睿博知识产权代理有限公司 11297 |
代理人 |
龚家骅 |
主权项 |
一种Hadoop分布式文件系统数据文件的生命周期管理方法,其特征在于,包括以下步骤:通过解析当前所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;将所述归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上;根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;根据各归一化目录中所包含的业务时间数据和文件大小数据,确定归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理。 |
地址 |
英属开曼群岛大开曼资本大厦一座四层847号邮箱 |