发明名称 一种面向分布式文件系统的主动重复数据删除方法
摘要 本发明提供一种面向分布式文件系统的主动重复数据删除方法,该方法基于分布式文件系统的I/O读写特点可以简化重复数据查找,将重复数据删除技术从后台移到前台,在将重复数据写入存储之前消除重复数据,其技术方案如下:在写入数据之前,首先通过数据位图校验当前数据是否已经存在,如果存在则修改数据目标指针,否则写入数据并更新数据目标指针,以此完成避免数据重复写入。该方法与现有技术相比,最大限度的节省存储空间,显著提高分布式文件系统的I/O速度。
申请公布号 CN102880671A 申请公布日期 2013.01.16
申请号 CN201210328959.9 申请日期 2012.09.07
申请人 浪潮电子信息产业股份有限公司 发明人 颜秉珩;张明富;张俊;张现忠;崔赢
分类号 G06F17/30(2006.01)I;H04L29/08(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种面向分布式文件系统的主动重复数据删除方法,其特征在于基于分布式文件系统的I/O读写特点,将重复数据删除技术从后台移到前台,在将重复数据写入存储之前主动完成重复数据的查询和删除工作,在写入数据之前,首先通过数据位图校验当前数据是否已经存在,如果存在则修改数据目标指针,否则写入数据并更新数据目标指针,以此完成避免数据重复写入,系统构成包括:客户端、元数据、存储服务器、Block摘要位图和文件,其中客户端通过查询元数据获取文件的物理存储位置,客户端与存储服务器直接交互进行数据传输,存储服务器通过查询block摘要位图确定输入数据是否已在文件中存在,具体实现步骤如下:(1)客户端通过查询元数据服务器获取文件的物理存储位置;(2)客户端与存储服务器直接交互进行数据传输;客户端缓存数据,构造若干block,同时计算每个block的数据块摘要值CRC32值,以block为单位进行数据传输,同时传输相应block的CRC32值;存储服务器接收到block以后,计算block的CRC32值,并验证与传输过来的CRC32值是否相同,完成数据传输校验;(3)存储服务器通过CRC32值查询block摘要位图,确定当前block是否已经存在系统之中:如果block已经存在,则修改chunk中的地址指向已经存在的block地址;否则将block写入本地存储,并将这个block的地址写入chunk。
地址 250014 山东省济南市高新区舜雅路1036号