发明名称 一种基于简单再生码的自适应编码存储容错方法
摘要 本发明公开一种基于简单再生码的自适应编码存储容错方法,其包含以下四个主要步骤:1)存入HDFS中的文件,以三副本方式存储;2)一个时间周期后,文件转为简单再生码快速码编码;3)当文件访问减少后,文件转为简单再生码紧凑码编码;4)随着运行中文件的动态属性,可能发生步骤2)和步骤3)中文件编码状态相互转化的情况。本发明通过在分布式文件系统HDFS中同时使用简单再生码紧凑码和快速码的两种编码形态,来达到存储开销和修复代价的折中,将基于简单再生码的自适应编码方法引入到HDFS中,结合文件状态和系统状态,建立了自适应编码机制,提高分布式存储系统的整体存储效率,降低修复代价。
申请公布号 CN105956128A 申请公布日期 2016.09.21
申请号 CN201610302217.7 申请日期 2016.05.09
申请人 南京大学 发明人 朱定亚;叶保留;陆桑璐
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 许丹丹
主权项 一种基于简单再生码的自适应编码存储容错方法,其特征在于,包括如下步骤:步骤一:在分布式文件系统HDFS中设定数据文件的访问频度为A,系统整体的存储开销为B,第一个时间周期为T1,第二个时间周期为T2;步骤二:先将数据文件存入分布式文件系统HDFS,然后将数据文件以64MB为单位分为若干个数据块,对每一个数据块备份三份并存入不同的存储节点中;步骤三:第一个时间周期T1后,HDFS中的自适应编码模块将数据文件由步骤二中的副本方式存储转化为编码方式存储,所述编码方式为简单再生码快速码方式存储;步骤四:第二个时间周期T2后,自适应编码模块检测在该周期内该数据文件的访问频度和系统整体的存储开销;步骤五:第二个时间周期T2内访问频度超过预设访问频度A的数据文件标记为热数据,低于预设访问频度A的文件标记为冷数据,当数据文件为冷数据时,将该数据文件由简单再生码快速码编码转化为简单再生码紧凑码编码,该过程成为升码;步骤六:当第二个时间周期T2内系统整体存储开销高于预设系统整体的存储开销B时,将HDFS中所有被简单再生码快速码编码的数据文件的访问频度进行排序,根据数据文件的访问频度从低到高依次将数据文件由简单再生码快速编码转化为简单再生码紧凑编码,直到系统整体存储开销低于预设系统整体的存储开销B为止;步骤七:当数据文件的访问频度高于预设访问频度A时,将由简单再生码紧凑码编码转化为简单再生码快速码编码,该过程成为降码。
地址 210023 江苏省南京市仙林大道163号