发明名称 构建多机系统高可用的自愈合逻辑环故障检测与容忍方法
摘要 本发明涉及计算机技术领域,是一种用于保证多机系统高可用的自动故障检测与故障容忍方法,它适用于通过网络连接的能进行点对点通信和多播(广播)通信的多机系统。该方法将多机系统中的成员节点组织成一个逻辑虚拟封闭环路,通过环形检测机制实现分布式故障发现,通过逻辑环自愈合机制实现自动故障隔离,通过环形数据备份机制和环形任务接管机制实现系统高可用,通过环形任务迁移和逻辑环自愈合机制实现系统的自动恢复,通过逻辑环自愈合机制和任务重新分配实现系统处理能力在线式动态伸缩。本发明无需设置主控节点,消除了系统单一故障点,数据备份的系统开销小,故障检测通信流量少,处理开销小,可用低成本系统实现。
申请公布号 CN1741489A 申请公布日期 2006.03.01
申请号 CN200510043171.3 申请日期 2005.09.01
申请人 西安交通大学;浪潮(北京)电子信息产业有限公司 发明人 伍卫国;刘爱华;董小社;杨文贵;胡雷钧;王恩东;王守昊
分类号 H04L12/437(2006.01);H04L12/24(2006.01) 主分类号 H04L12/437(2006.01)
代理机构 西安通大专利代理有限责任公司 代理人 陈翠兰
主权项 1、一种构建多机系统高可用的自愈合逻辑环故障检测与容忍方法,其特征在于,按下述步骤进行:a)将多机系统内物理连通的所有主机节点组织成一个逻辑上的虚拟封闭环路,环路中的各节点关系对等,每个节点均被赋予一个唯一的逻辑标识;b)依据逻辑虚拟环路的组织方法,逻辑环中相邻的主机节点间存在逻辑邻居关系;c)逻辑虚拟环路中的节点依据节点间的逻辑邻居关系进行环形数据备份,以实现分布式的数据备份机制;d)利用节点间逻辑上的邻居关系,采用逻辑邻居检测技术来检测节点的失效,达到系统的分布式故障发现;e)当检测到系统内有节点失效时,通过逻辑环的自愈合特性自动隔离故障节点,故障节点执行的任务由其他节点接管,实现任务的不间断性,达到系统的高可用;f)当节点故障被排除,节点恢复时,通过逻辑环的自愈合特性将恢复的故障节点重新加入到逻辑虚拟环路中,自动完成任务的恢复,即节点恢复运行;g)当节点主动退出系统或者新节点加入系统时,通过逻辑环的自愈合特性自动隔离主动退出的节点或者将新节点加入到逻辑虚拟环路中,并重新分配环路中各个节点承担的任务,达到系统的动态伸缩;h)多机系统的上层应用应该支持并行事务处理,并可以进行负载均衡和动态事务迁移,在此基础上,通过采用自愈合逻辑环方式的故障检测和故障容忍机制,在系统出现节点故障和通讯故障时,保证上层应用的故障切换,以此消除系统内的单一故障点。
地址 710049陕西省西安市咸宁路28号