发明名称 管理冗余的基于计算机的系统用于容错计算的方法和设备
摘要 一个独立的冗余管理系统(RMS)(12)以实现极高的系统可靠性,安全性,容错能力和任务成功率,提供了一个管理基于冗余计算机的系统的有成本效益的解决方案。RMS包括一个交叉通道数据链接(CCDL)模块(24a)和一个容错执行(FTE)模块(13)。CCDL模块提供所有节点的数据通信,同时FTE模块执行系统功能,如同步,数据表决,故障和错误检测,隔离和恢复。系统容错能力通过数据表决由检测和屏蔽有错误数据来实现的,系统完整性由一个动态重新配置结构来保证的,该结构能从系统中排除有故障节点并再许可健康节点返回系统中。
申请公布号 CN1192309C 申请公布日期 2005.03.09
申请号 CN99809290.8 申请日期 1999.06.02
申请人 联合讯号公司 发明人 J·X·周;T·G·罗登三世;L·P·波尔杜克;D·-T·彭;J·W·埃恩斯特;M·尤尼斯
分类号 G06F11/00 主分类号 G06F11/00
代理机构 中国专利代理(香港)有限公司 代理人 吴立明;张志醒
主权项 1.一种管理以计算机为基础的有多个硬件计算节点的系统中的冗余的方法,包括步骤:(a)为每个计算节点提供对应的一个冗余管理系统(RMS);(b)在每个RMS之间建立通信链接;(c)在每个RMS中实现容错执行(FTE)软件模块,用于管理故障和多个系统功能;以及(d)检测在一个节点中生成的数据中的故障/错误,并防止在一个节点中生成的数据中的一个被检测的故障/错误的繁殖;所述的检测和防止步骤还包括步骤:(i)对每个节点生成的数据进行表决以决定由一个节点产生的数据是否不同于大多数;(ii)当由一个特殊节点生成的数据不同于表决出的大多数时,使用表决出的数据作为输出来屏蔽故障;(iii)响应数据表决的结果确认一个有故障节点;(iv)由全局惩罚系统惩罚被确认的有故障节点;和(v)当这个有故障节点的惩罚超过用户指定的故障容忍范围时,从节点的一个操作集合中排除这个被确认的有故障节点。
地址 美国新泽西州