发明名称 一种云环境下的分布式系统多级故障容错方法
摘要 本发明公开了一种云环境下的分布式系统多级故障容错方法,包括:基于虚拟机磁盘快照的分布式应用协同备份算法,能够对I/O状态以及所依赖的操作系统环境进行备份;分层故障检测和恢复机制,能够实时地检测物理层、虚拟化层、云平台层、虚拟机OS层和应用层故障,针对不同的故障采用相匹配的故障恢复方法。使得故障检测和恢复细化到模块,采用自顶向下逐级恢复的策略,做到恢复开销最小化;基于模板的虚拟容错集群服务部署策略,用户能够利用虚拟机模板一键部署虚拟机容错集群,并上传作业进行托管,同时使用经过授权的容错PaaS服务。本发明能够有效的解决现有集群部署复杂,容错开销大的问题,并且能够全方位应对云计算环境下分布式应用各层次故障。
申请公布号 CN103778031B 申请公布日期 2017.01.18
申请号 CN201410017308.7 申请日期 2014.01.15
申请人 华中科技大学 发明人 邹德清;金海;江昌庆;羌卫中
分类号 G06F11/14(2006.01)I 主分类号 G06F11/14(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 朱仁玲
主权项 一种云环境下的分布式系统多级故障容错方法,其特征在于,包括以下步骤:(1)主节点接收用户通过Web界面定制的虚拟机镜像模板;(2)主节点根据虚拟机镜像模板配置虚拟集群的参数,根据配置的虚拟集群的参数创建虚拟集群,并将虚拟集群中的虚拟机部署到各物理机;(3)主节点接收用户上传的作业及其运行参数,并根据该运行参数判断用户是否需要对作业进行容错,如果是则转入步骤(5),否则转入步骤(4);(4)主节点将作业添加到运行作业队列中,等待该作业运行完毕,并将运行结果返回给用户,然后过程结束;(5)主节点将需要容错的作业添加到容错作业队列中,等待该作业运行,其中在该作业的运行过程中执行备份操作,在运行过程中出现故障时执行恢复操作,并在作业运行完毕后将结果返回给用户。
地址 430074 湖北省武汉市洪山区珞喻路1037号