发明名称 | 一种云环境下的分布式系统多级故障容错方法 | ||
摘要 | 本发明公开了一种云环境下的分布式系统多级故障容错方法,包括:基于虚拟机磁盘快照的分布式应用协同备份算法,能够对I/O状态以及所依赖的操作系统环境进行备份;分层故障检测和恢复机制,能够实时地检测物理层、虚拟化层、云平台层、虚拟机OS层和应用层故障,针对不同的故障采用相匹配的故障恢复方法。使得故障检测和恢复细化到模块,采用自顶向下逐级恢复的策略,做到恢复开销最小化;基于模板的虚拟容错集群服务部署策略,用户能够利用虚拟机模板一键部署虚拟机容错集群,并上传作业进行托管,同时使用经过授权的容错PaaS服务。本发明能够有效的解决现有集群部署复杂,容错开销大的问题,并且能够全方位应对云计算环境下分布式应用各层次故障。 | ||
申请公布号 | CN103778031B | 申请公布日期 | 2017.01.18 |
申请号 | CN201410017308.7 | 申请日期 | 2014.01.15 |
申请人 | 华中科技大学 | 发明人 | 邹德清;金海;江昌庆;羌卫中 |
分类号 | G06F11/14(2006.01)I | 主分类号 | G06F11/14(2006.01)I |
代理机构 | 华中科技大学专利中心 42201 | 代理人 | 朱仁玲 |
主权项 | 一种云环境下的分布式系统多级故障容错方法,其特征在于,包括以下步骤:(1)主节点接收用户通过Web界面定制的虚拟机镜像模板;(2)主节点根据虚拟机镜像模板配置虚拟集群的参数,根据配置的虚拟集群的参数创建虚拟集群,并将虚拟集群中的虚拟机部署到各物理机;(3)主节点接收用户上传的作业及其运行参数,并根据该运行参数判断用户是否需要对作业进行容错,如果是则转入步骤(5),否则转入步骤(4);(4)主节点将作业添加到运行作业队列中,等待该作业运行完毕,并将运行结果返回给用户,然后过程结束;(5)主节点将需要容错的作业添加到容错作业队列中,等待该作业运行,其中在该作业的运行过程中执行备份操作,在运行过程中出现故障时执行恢复操作,并在作业运行完毕后将结果返回给用户。 | ||
地址 | 430074 湖北省武汉市洪山区珞喻路1037号 |