发明名称 一种适用于海量存储系统的重复数据删除方法
摘要 本发明提供一种适用于海量存储系统的重复数据删除方法,采用4KB-8KB的小块来截分数据流,采用Hash值和数据指纹的双重验证来确保重复数据的删除率,采用SSD存储Hash索引来提高检索效率,重复数据删除适用于高重复数据,例如较低的数据变化率,完全的数据备份,数据长期保存以及非活动数据,在这些应用环境下能够达到最高的效率,即最高的重复数据删除率,也可以理解为磁盘空间释放比,传统的固定重复数据删除技术,分块数据流一般是采用64KB-128KB的块大小,因为内存RAM和HDD磁盘间速率的差异性,这样做就不会因为块太小而影响性能,但却会因为块过大而影响重复数据的删除比。
申请公布号 CN102982122A 申请公布日期 2013.03.20
申请号 CN201210452830.9 申请日期 2012.11.13
申请人 浪潮电子信息产业股份有限公司 发明人 梁吉林
分类号 G06F17/30(2006.01)I;G06F3/06(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种适用于海量存储系统的重复数据删除方法, 其特征在于使用4KB‑8KB的块大小对数据流进行分块,这样极小的块就能够确保极高的重复数据删除率,能够较精确的进行重复数据的定位删除;而针对HDD磁盘与内存RAM之间数据传输率的差异而导致的性能影响,通过使用SSD重新构建存储的架构,作为RAM与RAID阵列之间的中转,这样不仅能够提高检索的速率,而且也提高了数据的存储速率,在新的数据块Hash值到来需要进行验证的时候,RAM读取存储在SSD中的Hash索引,以SSD比HDD高出3倍的实际数据传输速率,便得系统的性能得到保证,使用4KB‑8KB的小块所产生的相对较大的Hash索引表所引起的性能问题也能够得到解决,针对重复数据删除比以及重复数据删除精确度低的问题,使用Hash值和数据指纹的双重校验,以确保最大程度上的重复数据删除精确度,因为使用SSD作为中间点,保障了I/O速率,因此在双重验证的情况下,也不会影响系统的性能,具体步骤如下:1)接收到所要进行存储的数据流;2)传送至Dedupe System模块;3)数据流按照指定的4KB‑8KB大小的块进行截断分解;4)计算数据块的Hash值;5)计算数据块的数据指纹;6)读取SSD中存储的Hash索引表;7)判别Hash值与Hash索引表中是否重复;A.重复,(1)读取数据指纹索引表,继续判定数据指纹;(2)数据指纹重复,建立数据连接,数据块不进行存储;(3)数据指纹不重复,存储数据块到SSD,存储数据块Hash值至SSD中的Hash索引表,存储数据块的数据指纹至SSD中的数据指纹索引表;B.不重复,(1)存储数据块至SSD,存储数据块Hash值至SSD中的Hash索引表,存储数据块的数据指纹至SSD中的数据指纹索引表;(2)将存储于SSD中的数据块传送到RAID阵列磁盘中进行存储。
地址 250014 山东省济南市高新区舜雅路1036号