一种面向数据连续读取的重删纠删混合系统的数据放置方法器,申请号CN201610135198.3-传众专利搜索

发明名称	一种面向数据连续读取的重删纠删混合系统的数据放置方法器
摘要	本发明涉及一种面向数据连续读取的重删纠删混合系统的数据放置方法器。基于各类分布式重复数据删除和纠删码混合存储系统，通过改变对数据分块和校验分块的放置策略，在保证系统可靠性不受任何影响的前提下，进一步提升数据连续读取时的读性能，其特征在于，不改变各条带的构成，通过将多个条带中所有的数据元素和所有校验元素分别连续放置，从而保证所有数据元素放置的连续性，消除原校验元素中断数据元素放置所带来的负载瓶颈，从而最大限度地提升数据连续读取时的并行度，实现各独立节点并行性的最大化利用，提升连续读的系统读性能。
申请公布号	CN105824720A	申请公布日期	2016.08.03
申请号	CN201610135198.3	申请日期	2016.03.10
申请人	中国人民解放军国防科学技术大学	发明人	肖侬;邓明翥;陈志广;刘芳
分类号	G06F11/14(2006.01)I	主分类号	G06F11/14(2006.01)I
代理机构	湖南省国防科技工业局专利中心 43102	代理人	冯青
主权项	一种面向数据连续读取的重删纠删混合系统的数据放置方法器，基于各类分布式重复数据删除和纠删码混合存储系统，通过改变对数据分块和校验分块的放置策略，在保证系统可靠性不受任何影响的前提下，进一步提升数据连续读取时的读性能，其特征在于，不改变各条带的构成，通过将多个条带中所有的数据元素和所有校验元素分别连续放置，从而保证所有数据元素放置的连续性，消除原校验元素中断数据元素放置所带来的负载瓶颈，从而最大限度地提升数据连续读取时的并行度，提升连续读时的系统读性能，具体步骤为：第一步，数据分块：采用定长分块的方式将文件或数据流进行分割，将其分割为若干个chunk数据分块，分块粒度的大小应当根据应用场景来进行选择，如果分块粒度越大，则后期计算开销越小，但是重删效果不够明显，反之，如果粒度过小，则会引入过多的计算开销，影响系统系能，第二步，计算特征值：计算每一块chunk的特征值，该特征值将作为该chunk的唯一标识，并作为下一步判断是否重复的依据，通常特征值的计算采用抗冲突能力较强的hash加密算法，如MD5、SHA‑1；第三步，查询索引表：将计算好的特征值与现有的索引表中的特征值逐一对比，用以判断其代表的chunk是否重复，该索引表随着数据量的增大而增大，因此当数据量庞大时降低系统性能；第四步，去除重复数据：根据查询结果，如果是重复的chunk则可以直接丢弃，但需要将节点号保存下来，将其元数据指针指向重复的chunk，以便后面需要访问时找到数据；第五步，冗余编码：查询后判断是不重复的chunk，则将其特征值作为一个新的条目追加到索引表中，并根据分组大小对k个此类唯一块进行冗余编码，生成m个冗余分块，所使用的具体的编码和编码参数应该根据系统的可靠性需求进行选择，第六步，放置存储分块：根据节点数和冗余编码参数确定多个分组内数据和冗余的放置位置，根据放置算法为每个数据分块和冗余分块分配适当的地址，并进行存储。
地址	410073 湖南省长沙市砚瓦池正街47号