发明名称 网格中基于历史数据建模的作业性能预测方法
摘要 网格中基于历史数据建模的作业性能预测方法,属于高性能网格中作业完成时间建模及预测方法,其特征在于在网格节点中建立基于CGSP网格软件和CGSV网格软件的历史作业信息库,内有N个历史作业信息,涉及资源配置、资源负载、作业请求及作业实际性能四个方面,同时建立一个由多个候选回归函数组成的集合,在预测时用户所提交的第N+1个作业根据第N个作业的回归模型得到,而该第N个作业的回归模型又根据第N个作业的作业实际性能和根据第N-1个作业的各个候选回归模型的实际性能预测值结果之差值中选择一个差值最小的候选回归模型得到,仿真实验证明本发明可以解决资源负载过大所导致的作业时间开销急剧上升的问题。
申请公布号 CN101697141B 申请公布日期 2012.09.05
申请号 CN200910236533.9 申请日期 2009.10.30
申请人 清华大学 发明人 武永卫;杨广文;陈刚;柳佳
分类号 G06F9/50(2006.01)I;H04L29/08(2006.01)I 主分类号 G06F9/50(2006.01)I
代理机构 代理人
主权项 网格中基于历史数据建模的作业性能预测方法,其特征在于所述方法是在包括计算机、网络、存储系统在内的作为共享资源的网格节点上按照如下步骤实现的:步骤(1)初始化在所述网格节点上设置:基于Web服务资源框架OGSA的CGSP网格软件和CGSV网格软件,其中CGSP网格软件是中国网格ChinaGrid中一个为其他专业网格提供公共支撑平台的中间件,集成了中国教育科研网络CERNET上的各种异构的教育和研究资源;CGSV网格软件是中国网格ChinaGrid中的对分布式资源进行监控的工具,同时收集和查询包括硬件、系统、网络和所述CGSP网格软件在内的共享资源的动态信息;历史作业信息库HJIR,存储有当前的N条历史作业信息,其中每一条历史作业信息的记录格式为资源配置信息、资源负载信息、作业请求信息以及作业实际性能信息,每一条所述历史作业信息均由所述CGSP网格软件和CGSV网格软件在内构成,其中:资源配置信息,至少包括各网格节点中的CPU个数、内存容量、最大带宽、操作系统及其版本以及其他软件及其版本,这些都反映了网格资源在执行相应作业时的软件和硬件的配置信息;资源负载信息至少包括执行相应作业时网格节点的CPU空闲率、内存空闲率和可用带宽,反映了网格节点在执行相应作业时的负载情况;作业请求信息至少包括作业请求的应用类型、命令行参数及其符值、输入数据及其大小,反映了历史上的同类作业请求的输入信息;作业实际性能信息至少包括历史作业执行时间开销以及作业数据传输时间开销,反映了在作业执行完成后,系统收集到的有关作业性能的实际数据;在所述网格节点上,还设置了利用前N‑1个所述历史作业信息库中的记录,建立下述5个候选回归函数的集合:{线形候选回归函数fLinear、高斯候选回归函数fGaussian、倒数多重二次曲面候选回归函数fInverseMultiquadric、多重二次曲面候选回归函数fMultiquadric和多项式候选回归函数fPolynomial};步骤(2)所述网格节点依次按如下步骤执行基于历史数据建模的作业性能预测:步骤(2.1)用户对所述网格节点输入作业的输入数据,所述作业输入数据是指作业请求信息,其中至少包括:用户名称及编号、作业请求的应用类型、命令行参数及其符值,以及输入数据及其大小;步骤(2.2)用户通过所述网格节点的认证后,该网格节点把所述用户输入的作业编号为第N+1个作业;步骤(2.3)把历史上N个作业中记录的资源配置信息CN、资源负载信息LN以及作业请求信息RN,代入步骤(1)中所述的5个候选回归函数,得到所述历史上第N个作业的5个性能估计值:PLinear=fLinear(CN,LN,RN)、PGaussian=fGaussian(CN,LN,RN)、PInverseMultiquadric=fInverseMultiquadric(CN,LN,RN)、PMultiquadric=fMultiquadric(CN,LN,RN)和PPolynomial=fPolynomial(CN,LN,RN);步骤(2.4)把步骤(2.3)中所述的5个性能估计值分别与所述第N个作业的真实的作业性能值P进行比较,从中选出差值最小的候选回归函数fN,从而得到了适合所述用户输入作业类型的作业性能预测函数;步骤(2.5)把所述第N+1个作业所记录的资源配置信息CN+1,资源负载信息LN+1以及作业请求信息RN+1带入所述候选回归函数fN计算得到第N+1个作业的性能预测值。
地址 100084 北京市100084信箱82分箱清华大学专利办公室