发明名称 云存储系统中基于预判性绿色数据分类策略的降耗方法
摘要 本发明公开了一种云存储系统中基于预判性绿色数据分类策略的降耗方法。本发明将文件的访问率与阈值比较,访问率大于热阈值就是热数据,访问率小于冷阈值就是冷数据,介于冷热阈值之间的数据则将其进行预判,当某时间段热时,就将其迁移至热区域,否则将其放入冷区域。如果有新数据进行写操作,且原云存储系统不存在该数据,将该数据与原云存储系统中的数据进行关联度分析,找到与其相关度最高的数据,将新数据放入与旧数据相同类型的磁盘中。本发明很好地将数据文件进行合理的分类,通过合理有效的分类基本避免了在不合理分类的情况下可能出现的热文件在冷区域,冷文件在热区域中的能源消耗和文件读取时延增加的情况。
申请公布号 CN103616944B 申请公布日期 2016.05.11
申请号 CN201310492778.4 申请日期 2013.10.18
申请人 杭州电子科技大学 发明人 游新冬;董池;周丽;蒋从锋;万健
分类号 G06F1/32(2006.01)I 主分类号 G06F1/32(2006.01)I
代理机构 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人 杜军
主权项 云存储系统中基于预判性绿色数据分类策略的降耗方法,其特征在于该方法包括以下步骤:步骤(1):对冷数据,热数据,季节热数据,以及新数据进行界定,具体界定如下:1)冷数据:即在长期的数据操作过程中该数据的平均访问操作次数小于冷阈值;2)热数据:即在长期的数据操作过程中该数据的平均访问操作次数大于热阈值;3)季节热数据:即在长期的操作过程中该数据只有某段或某几段时间操作平均次数大于热阈值,数据温度呈现上下波动的情况,而在整个数据操作过程中数据平均访问操作次数处于冷热阈值之间;4)新数据:即表示在云存储系统中没有存在的数据,相应的该数据也不存在被操作的次数;步骤(2):对预判性绿色数据分类策略模型的定义:定义F={f<sub>1</sub>,...,f<sub>i</sub>,...,f<sub>m</sub>},F代表文件集合,f<sub>i</sub>={m<sub>i</sub>,p<sub>i</sub>},其中p<sub>i</sub>表示文件f<sub>i</sub>当前日期的前两年的每个月访问率构成的数组,m<sub>i</sub>表示文件f<sub>i</sub>的属性值,其中属性包括:文件的关键字的哈希值,文件名称的哈希值,文件内容的哈希值;p<sub>ij</sub>代表数组p<sub>i</sub>中的第j个元素,ap<sub>i</sub>代表p<sub>i</sub>数组的平均值,它是访问数据的平均访问率,<maths num="0001"><math><![CDATA[<mrow><msub><mi>ap</mi><mi>i</mi></msub><mo>=</mo><mfrac><mn>1</mn><mn>24</mn></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mn>24</mn></munderover><msub><mi>p</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>;</mo></mrow>]]></math><img file="FDA0000907503400000011.GIF" wi="397" he="142" /></maths>1)判定访问数据的平均访问频率ap<sub>i</sub>是否为0,否,则该数据为旧数据,转至2);是,则该数据为新数据,转至4);2)将旧数据的平均访问频率值ap<sub>i</sub>与冷热阈值进行比较,如果平均访问频率大于等于热阈值th<sub>h</sub>,则该数据为热数据,将该数据放入热磁盘;将冷热阈值之间的数据视为季节热数据,将小于等于冷阈值th<sub>c</sub>的数据视为冷数据,将冷数据和季节热数据放入冷磁盘中;如果该数据为季节热数据,在放入冷磁盘之后,转至3);3)通过神经网络对季节热数据进行预测,预测其下个月的平均访问率,判断其下个月的温度;如果其下个月的平均访问率大于等于热阈值th<sub>h</sub>,则将该数据放入热磁盘,否则放入冷磁盘;4)将新数据的属性值与冷热磁盘中的旧数据的属性值进行关联度分析,找到相关度最大的旧数据,将新数据放入与旧数据相同类型的磁盘中;步骤(3):能耗模型的构建:令流行文件与非流行文件的数目比为<img file="FDA0000907503400000025.GIF" wi="71" he="53" />令流行文件与非流行文件的请求数目比为η,S'<sub>h</sub>/S′<sub>c</sub>=k,0&lt;k&lt;1,S'<sub>h</sub>代表热请求文件的平均大小,S′<sub>c</sub>代表冷请求文件的平均大小,令<img file="FDA0000907503400000021.GIF" wi="356" he="143" />t<sup>h</sup>表示高速磁盘传输率,单位为Mb/s,t<sup>c</sup>表示慢速磁盘传输率,单位为Mb/s,|D<sub>h</sub>|/|D<sub>c</sub>|=γ,D<sub>h</sub>={d<sub>1</sub>,...,d<sub>h</sub>,...,d<sub>e</sub>},D<sub>h</sub>代表快速旋转磁盘集合,D<sub>c</sub>={d<sub>f</sub>,...,d<sub>c</sub>,...,d<sub>n</sub>},D<sub>c</sub>代表慢速旋转磁盘集合;在区分冷热磁盘情况下总能量消耗为:<img file="FDA0000907503400000022.GIF" wi="1430" he="158" />其中R<sub>h</sub>={r<sub>1</sub>,...r<sub>h</sub>,...,r<sub>b</sub>},R<sub>h</sub>代表请求热数据的集合,t<sub>ceshi</sub>表示实验过程中实验的时间,p<sup>h</sup>表示高速磁盘积极能耗,单位为J/Mb,i<sup>h</sup>表示高速磁盘理想时刻能耗,单位为J/s;当未区分冷热磁盘时总能量消耗为:<img file="FDA0000907503400000023.GIF" wi="1387" he="159" />通过数据分类以确定数据的温度可以节省的能量为:<img file="FDA0000907503400000024.GIF" wi="1693" he="173" />
地址 310018 浙江省杭州市下沙高教园区2号大街