发明名称 基于位置敏感哈希的删冗存储系统元数据管理方法
摘要 本发明公开了一种基于位置敏感哈希的删冗存储系统元数据管理方法,该方法利用位置敏感哈希函数快速将相似文件数据块元数据组织在一起,从而在对删冗存储系统写入数据块时,能快速查找到是否系统中已经存在该数据块,提高删冗存储系统的元数据查找性能,最终提高系统吞吐率。在该方法中通过设置使用的位置敏感哈希函数数量,调整相似文件识别率,从而改变元数据管理系统查询速度、内存开销和删冗效果。通过这种方法可以使元数据管理适应不同删冗存储系统要求,并且通过使用多个哈希函数可以提高相似文件识别率,提高删冗存储系统的删冗能力并减少元数据索引内存开销。
申请公布号 CN101963982B 申请公布日期 2012.07.25
申请号 CN201010294016.X 申请日期 2010.09.27
申请人 清华大学 发明人 余宏亮;孙竞
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 王莹
主权项 一种基于位置敏感哈希的删冗存储系统元数据管理方法,其特征在于,所述方法的写数据操作包括以下步骤:S101、将文件分块,计算每个数据块的数字指纹,生成文件数字指纹集合;S102、将所述文件数字指纹集合映射到一个固定大小的存储结构中进行归一化处理,得到固定长度的输入向量;S103、根据所述输入向量计算所述文件数字指纹集合的位置敏感哈希函数值;S104、根据所述位置敏感哈希函数值查找相似文件的元数据集合的地址,根据该地址将所述相似文件的元数据集合读入内存,然后查找存在于所述文件数字指纹集合中而在所述相似文件的元数据集合中没有保存的数字指纹;所述相似文件是包含有一定数量相同数据块的文件;S105、根据步骤S104得到的所述元数据集合中没有保存的数字指纹对应的数据块生成相应的元数据,将所述相应的元数据合并到所述相似文件的元数据集合中;在步骤S102中,使用bloom filter进行归一化处理,归一化后,bloom filter的输出具有相同长度,所述输出为位置敏感哈希函数的所述输入向量。
地址 100084 北京市海淀区清华园北京100084-82信箱