发明名称 一种服务器智能管理中二维数据与管理策略迁移的方法
摘要 本发明提供一种服务器智能管理中二维数据与管理策略迁移的方法,采用KNN(K最近邻)均值法分别计算源服务器健康信息和目标服务器健康信息对应项目的平均值,再对源服务器的数据进行处理,使它具有与目标服务器数据相同的分布特征,实现服务器健康信息的数据迁移,提高依据数据学到知识的可靠性,同时可实现从源服务器到目标服务器管理知识的迁移。
申请公布号 CN102426561B 申请公布日期 2014.10.08
申请号 CN201110305623.6 申请日期 2011.10.11
申请人 浪潮电子信息产业股份有限公司 发明人 于治楼
分类号 G06F15/18(2006.01)I;H04L29/08(2006.01)I 主分类号 G06F15/18(2006.01)I
代理机构 代理人
主权项 一种服务器智能管理中二维数据与管理策略迁移的方法,其特征在于采用随机平均数法分别计算源服务器健康信息和目标服务器健康信息对应项目的平均值,再对源服务器的数据进行处理,使它具有与目标服务器数据相同的分布特征,实现服务器健康信息的数据迁移,提高依据数据学习到知识的可靠性,同时可实现从源服务器到目标服务器管理知识的迁移,步骤如下:1)迁移学习方案先做如下定义:在一个学习目标服务器规律的任务中,有一个源服务器的训练数据集D<sub>t</sub>={(x<sub>ti</sub>,y<sub>ti</sub>)|i=1,…,N<sub>t</sub>},x<sub>ti</sub>表示第i个样例,y<sub>ti</sub>表示它的类标签,N<sub>t</sub>是训练数据的个数,D<sub>t</sub>中的样例服从一个固定的但未知的分布p<sub>t</sub>,还有少量的目标服务器的训练数据集服从另一个固定的但未知的分布p<sub>s</sub>,并用D<sub>s</sub>={(x<sub>si</sub>,y<sub>si</sub>)|i=1,…,N<sub>s</sub>}表示,x<sub>si</sub>表示第i个样例,y<sub>si</sub>表示它的类标签,D<sub>s</sub>和D<sub>t</sub>中的每一个样例使用的类标签来自同一个类标签集合Y,包括具有l个成员的有限集合,数据迁移的任务就是从D<sub>s</sub>中提取出有用的信息用在目标服务器知识学习的任务上,并且找到一个对目标服务器数据预测分类精度较高的映射函数f:x→y;(1)把D<sub>t</sub>分成不同的子集,每个子集里面的数据都是同一类,这些数据表示为D<sub>t1</sub>,…D<sub>tl</sub>,对于D<sub>t</sub>中的一个特定的子集D<sub>ti</sub>,i是D<sub>ti</sub>中的类标号,随机选取m个样例,计算这些被选样例的平均值,这个平均值是一个合成数据,并作为用类标号i标记的样本,对于D<sub>ti</sub>的样例个数N<sub>ti</sub>,用同样的方法生成N<sub>ti</sub>个合成样本,当所有的D<sub>t</sub>的子集都处理完,这样就生成了l个合成数据集<img file="FDA0000554496450000011.GIF" wi="174" he="63" />每一个<img file="FDA0000554496450000012.GIF" wi="74" he="77" />有N<sub>ti</sub>个平均值作为它的成员,i作为每一个成员的类标号,当m趋于无穷大时,这些合成数据服从不同的多元正态分布,并且当它们之间相互独立,同一类别的数据服从同一个多元正态分布,<img file="FDA0000554496450000013.GIF" wi="75" he="84" />的合成数据服从多元正态分布,平均值通过<img file="FDA0000554496450000014.GIF" wi="344" he="122" />计算得出,协方差∑<sub>ti</sub>∈R<sup>n×n</sup>是一个非对角线协方差矩阵,该n是样例个数的维度,通过<img file="FDA0000554496450000021.GIF" wi="686" he="120" />计算得出,∑<sub>ti</sub>非对角线上的数据表示特征间的相关性,当特征间是相互独立时,则非对角线上的项都为0,忽略掉非对角线上的数据,只考虑对角线上的数据,对于从D<sub>t</sub>和D<sub>s</sub>中抽取的每一个子集的成员生成各自相应的合成数据,每个合成数据有两个值:每一类数据中的均值和协方差矩阵,把以上生成合成数据的方法称为随机平均数法,对于所有的合成数据集,用μ<sub>t1</sub>,…,μ<sub>tl</sub>,μ<sub>s1</sub>,…μ<sub>sl</sub>表示平均值,用∑<sub>t1</sub>,…∑<sub>tl</sub>,∑<sub>s1</sub>,…∑<sub>sl</sub>表示协方差;(2)通过算法生成数据集<img file="FDA0000554496450000022.GIF" wi="107" he="82" />使它具有与<img file="FDA0000554496450000023.GIF" wi="70" he="84" />相同的分布,该算法的详细过程为:把D<sub>s</sub>按照数据的类标号分成数据子集D<sub>si</sub>,i=1,…,l;对于每一个D<sub>si</sub>,计算μ<sub>si</sub>,∑<sub>si</sub>;对于D<sub>si</sub>中的每个样例,通过KNN均值生成合成样例<img file="FDA00005544964500000212.GIF" wi="87" he="75" />对于一个有完整协方差矩阵的多元正态分布,概率密度函数如下所示:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><msup><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mo>)</mo></mrow><mrow><mi>n</mi><mo>/</mo><mn>2</mn></mrow></msup><msup><mrow><mo>|</mo><mi>&Sigma;</mi><mo>|</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow></mfrac><mi>exp</mi><mo>{</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mi>&mu;</mi><mo>)</mo></mrow><mi>T</mi></msup><msup><mi>&Sigma;</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mi>&mu;</mi><mo>)</mo></mrow><mo>}</mo></mrow>]]></math><img file="FDA0000554496450000024.GIF" wi="887" he="150" /></maths>     公式a其中x是一个n维的随机变量;如果特征相互独立,协方差矩阵会简化为一个对角矩阵;<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>&Sigma;</mi><mo>=</mo><mfenced open='|' close='|'><mtable><mtr><mtd><msubsup><mi>&sigma;</mi><mn>11</mn><mn>2</mn></msubsup></mtd><mtd><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><msubsup><mi>&sigma;</mi><mi>m</mi><mn>2</mn></msubsup></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000554496450000025.GIF" wi="296" he="167" /></maths>      公式b对于<img file="FDA0000554496450000026.GIF" wi="80" he="82" />中的每一个合成样例<img file="FDA0000554496450000027.GIF" wi="106" he="82" />进行如下的转换:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mfrac><msub><mrow><mo>(</mo><msub><mover><mi>x</mi><mo>&OverBar;</mo></mover><mi>si</mi></msub><mo>-</mo><msub><mi>&mu;</mi><mi>si</mi></msub><mo>)</mo></mrow><mi>j</mi></msub><msqrt><msub><mrow><mo>(</mo><msub><mi>&Sigma;</mi><mi>si</mi></msub><mo>)</mo></mrow><mi>j</mi></msub></msqrt></mfrac><mo>=</mo><mfrac><msub><mrow><mo>(</mo><msub><mover><mi>x</mi><msup><mo>-</mo><mo>&prime;</mo></msup></mover><mi>si</mi></msub><mo>-</mo><msub><mi>&mu;</mi><mi>ti</mi></msub><mo>)</mo></mrow><mi>j</mi></msub><msqrt><msub><mrow><mo>(</mo><msub><mi>&Sigma;</mi><mi>ti</mi></msub><mo>)</mo></mrow><mi>j</mi></msub></msqrt></mfrac><mo>,</mo><mi>j</mi><mo>&Element;</mo><mo>{</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>n</mi><mo>}</mo></mrow>]]></math><img file="FDA0000554496450000028.GIF" wi="751" he="240" /></maths>     公式c其中<img file="FDA0000554496450000029.GIF" wi="218" he="88" />表示<img file="FDA00005544964500000210.GIF" wi="200" he="82" />中的第j个组成向量;这样通过公式c的转换,得到了一个新的合成数据<img file="FDA00005544964500000211.GIF" wi="103" he="104" />它服从均值为μ<sub>ti</sub>、协方差为∑<sub>ti</sub>的多元正态分布;(3)给定目标服务器的数据服从均值为μ<sub>ti</sub>协方差为∑<sub>ti</sub>的多元正态分布,通过公式c的转换,合成数据<img file="FDA0000554496450000031.GIF" wi="80" he="103" />和<img file="FDA0000554496450000032.GIF" wi="70" he="104" />服从均值为μ<sub>ti</sub>和协方差为∑<sub>ti</sub>的多元正态分布,其中<img file="FDA0000554496450000033.GIF" wi="318" he="102" />可以和少量的目标服务器的数据一起作为目标服务器的训练数据;2)将通过1)合成的训练数据用于机器学习,实现训练数据的迁移和获取知识的迁移。
地址 250014 山东省济南市高新区舜雅路1036号