发明名称 基于访问日志信息的空间小文件数据分布存储方法及系统
摘要 本发明提供基于访问日志信息的空间小文件数据分布存储方法及系统,包括将空间小文件数据集分成频繁访问的子集和非频繁访问的子集,提取频繁访问的空间小文件数据子集的访问序列,分段计算各频繁访问的空间小文件数据的关联度,并将各频繁访问的空间小文件数据相互之间的关联度数值组成关联矩阵;对关联矩阵中各元素数值进行大小转换后利用RCM排序算法重排后输出,对重排后的关联矩阵利用局部逼近搜索法寻找最佳组合,利用最佳组合对频繁访问的空间小文件数据进行分布存储,以及对非频繁访问的空间小文件数据根据空间位置相邻关系分开存储。本发明提高了空间小文件数据的并行访问性能。
申请公布号 CN104573082A 申请公布日期 2015.04.29
申请号 CN201510042456.9 申请日期 2015.01.28
申请人 武汉大学 发明人 潘少明;徐正全;种衍文;李红;李明;汤戈
分类号 G06F17/30(2006.01)I;G06F3/06(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 严彦
主权项 一种基于访问日志信息的空间小文件数据分布存储方法,其特征在于:对任一种空间小文件数据类型,执行包括以下步骤:步骤1,将空间小文件数据集,按照访问频率不同分成频繁访问的子集和非频繁访问的子集;包括以下子步骤,步骤1.1,获取各空间小文件数据访问热度,实现如下,设空间小文件数据集为F={f<sub>1</sub>,f<sub>2</sub>,...,f<sub>N</sub>},包含空间小文件数据f<sub>1</sub>,f<sub>2</sub>,...,f<sub>N</sub>,其中N为空间小文件数据的总个数,第i个空间小文件数据标记为f<sub>i</sub>,i=1,2,…,N;设访问日志信息中记录依次访问了空间小文件数据<img file="FDA0000662876350000011.GIF" wi="309" he="86" />空间小文件数据的访问日志序列为<img file="FDA0000662876350000012.GIF" wi="443" he="86" />A=(a<sub>1</sub>,a<sub>2</sub>,…,a<sub>M</sub>)为空间小文件数据访问序列向量,a<sub>t</sub>∈[1,N],访问序号t=1,2,…,M,其中M为对F中所有空间小文件数据的访问总次数;统计每个空间小文件数据f<sub>i</sub>在访问日志序列R中出现的次数λ<sub>i</sub>,以λ<sub>i</sub>为该空间小文件数据f<sub>i</sub>的访问热度;步骤1.2,根据空间小文件数据访问热度提取被频繁访问的空间小文件数据,实现如下,输入预设判别参数λ,若空间小文件数据集F中空间小文件数据f<sub>i</sub>的访问热度λ<sub>i</sub>&gt;λ,则空间小文件数据f<sub>i</sub>为频繁访问的空间小文件数据,否则f<sub>i</sub>属于非频繁访问的空间小文件数据;步骤1.3,根据步骤1.2所得频繁访问的空间小文件数据构成空间小文件数据集的子集,实现如下,设所有频繁访问的空间小文件数据所构成子集为<img file="FDA0000662876350000013.GIF" wi="434" he="84" />其中N<sub>1</sub>为频繁访问的空间小文件数据总个数,第i<sub>1</sub>、j<sub>1</sub>个频繁访问的空间小文件数据分别标记为<img file="FDA0000662876350000014.GIF" wi="59" he="78" />和<img file="FDA0000662876350000015.GIF" wi="92" he="78" />i<sub>1</sub>,j<sub>1</sub>∈[1,N<sub>1</sub>];步骤2,从访问日志信息中提取频繁访问的空间小文件数据子集的访问序列,包括按照时间先后顺序形成访问序列<img file="FDA0000662876350000016.GIF" wi="910" he="85" />为频繁访问空间小文件数据访问序列向量,<img file="FDA0000662876350000021.GIF" wi="260" he="80" />访问序号t<sub>1</sub>=(1<sub>1</sub>,2<sub>1</sub>,…,M<sub>1</sub>),其中M<sub>1</sub>为对F<sub>1</sub>中所有频繁访问空间小文件数据的访问总次数;步骤3,利用频繁访问的空间小文件数据子集的访问序列分段计算各频繁访问的空间小文件数据的关联度,并将各频繁访问的空间小文件数据相互之间的关联度数值组成关联矩阵;包括以下子步骤,步骤3.1,根据存储服务器数量m、频繁访问空间小文件数据子集长度N<sub>1</sub>计算频繁访问序列分段长度n=N<sub>1</sub>/m;步骤3.2,根据访问序列分段长度对频繁访问序列进行分段,实现如下,按照访问顺序,将频繁访问空间小文件数据访问序列向量A<sub>1</sub>以n个元素一组分割为若干子向量,表示为A<sub>1</sub>=(S<sub>1</sub>,S<sub>2</sub>,…,S<sub>l</sub>),其中子向量S<sub>k</sub>=(a<sub>k1</sub>,a<sub>k2</sub>,…,a<sub>kn</sub>),a<sub>kj</sub>∈[1,N<sub>1</sub>],1≤k≤l,1≤j≤n;将A<sub>1</sub>中所有子向量集合记为S,S={S<sub>k</sub>:k∈[1,l]};步骤3.3,计算频繁访问的空间小文件数据相互之间的关联度数值,实现如下,定义函数<img file="FDA0000662876350000022.GIF" wi="228" he="79" /><img file="FDA0000662876350000023.GIF" wi="1481" he="172" />其中<img file="FDA0000662876350000024.GIF" wi="426" he="91" />为S<sub>k</sub>中的所有元素组成的集合;函数<img file="FDA0000662876350000025.GIF" wi="198" he="78" />表示在长度为n的访问周期内频繁访问的空间小文件数据<img file="FDA0000662876350000026.GIF" wi="64" he="78" />和<img file="FDA0000662876350000027.GIF" wi="66" he="78" />是否具有关联性;定义函数R<sub>S</sub>(i<sub>1</sub>,j<sub>1</sub>),<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>R</mi><mi>S</mi></msub><mrow><mo>(</mo><msub><mi>i</mi><mn>1</mn></msub><mo>,</mo><msub><mi>j</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><msub><mi>R</mi><msub><mi>S</mi><mi>k</mi></msub></msub><mrow><mo>(</mo><msub><mi>i</mi><mn>1</mn></msub><mo>,</mo><msub><mi>j</mi><mn>1</mn></msub><mo>)</mo></mrow><mn>1</mn><mo>&le;</mo><msub><mi>i</mi><mn>1</mn></msub><mo>&le;</mo><msub><mi>N</mi><mn>1</mn></msub><mo>,</mo><mn>1</mn><mo>&le;</mo><msub><mi>j</mi><mn>1</mn></msub><mo>&le;</mo><msub><mi>N</mi><mn>1</mn></msub></mrow>]]></math><img file="FDA0000662876350000028.GIF" wi="987" he="146" /></maths>其中R<sub>S</sub>(i<sub>1</sub>,j<sub>1</sub>)表示S对<img file="FDA0000662876350000029.GIF" wi="56" he="84" />和<img file="FDA00006628763500000210.GIF" wi="61" he="84" />的总关联度;步骤3.4,将频繁访问的空间小文件数据相互之间的关联度数值组成关联矩阵R<sub>S</sub>,<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>R</mi><mi>S</mi></msub><mo>=</mo><msub><mrow><mo>(</mo><msub><mi>R</mi><mi>S</mi></msub><mrow><mo>(</mo><msub><mi>i</mi><mn>1</mn></msub><mo>,</mo><msub><mi>j</mi><mn>1</mn></msub><mo>)</mo></mrow><mo>)</mo></mrow><mrow><msub><mi>N</mi><mn>1</mn></msub><mo>&times;</mo><msub><mi>N</mi><mn>1</mn></msub></mrow></msub><mn>1</mn><mo>&le;</mo><msub><mi>i</mi><mn>1</mn></msub><mo>&le;</mo><msub><mi>N</mi><mn>1</mn></msub><mo>,</mo><mn>1</mn><mo>&le;</mo><msub><mi>j</mi><mn>1</mn></msub><mo>&le;</mo><msub><mi>N</mi><mn>1</mn></msub></mrow>]]></math><img file="FDA00006628763500000211.GIF" wi="921" he="83" /></maths>步骤4,对关联矩阵中各元素数值进行大小转换后利用RCM排序算法重排后输出;步骤5,对重排后的关联矩阵利用局部逼近搜索法寻找最佳组合;步骤6,利用步骤5所得最佳组合对频繁访问的空间小文件数据进行分布存储,以及对非频繁访问的空间小文件数据根据空间位置相邻关系分开存储。
地址 430072 湖北省武汉市武昌区珞珈山武汉大学
您可能感兴趣的专利