发明名称 一种用于三模冗余计算机的动态现场自主恢复方法
摘要 本发明公开了一种用于三模冗余计算机的动态现场自主恢复方法,系统正常工作时为三机工作模式,在其中一个计算机模块出现故障后,正常工作的计算机模块会对故障计算机进行故障检测,并进行降级处理,变为双机工作模式,然后对故障计算机进行系统重构恢复,通过三机通讯接口,正常计算机将重构数据发送至故障计算机。重构完成后,故障计算机重新进入系统并恢复正常工作,使系统恢复为三机工作模式,使系统可靠性和安全性得到极大的提升。该方法能够解决目前三模冗余容错计算机重构恢复时因CPU板运行不同代码和软件运行现场变更所带来的问题。
申请公布号 CN103399807A 申请公布日期 2013.11.20
申请号 CN201310270153.3 申请日期 2013.06.28
申请人 中国航天科技集团公司第五研究院第五一三研究所 发明人 谭沛;靳加农;曹振兴;牟文秀;邱庆林
分类号 G06F11/16(2006.01)I 主分类号 G06F11/16(2006.01)I
代理机构 北京理工大学专利中心 11120 代理人 李爱英;仇蕾安
主权项 一种用于三模冗余计算机的动态现场自主恢复方法,三模冗余容错计算机系统包括三个计算机,具有三个主CPU,CPU编号分别为1、2、3,只有一个主机权,上电初始默认为1号机,主机工作模式为总线通讯模式即BC模式,其余两机工作模式为总线监控模式即MT模式,主机权移交依次为1>2>3>1,其特征在于,该方法的步骤为:1)每个周期所述计算机系统都会对三个计算机进行容错检测,当检测到一个计算机故障后,对故障计算机进行断电关机处理,然后将整个计算机系统降级为双机工作模式,在计算机系统降级后,每个正常计算机将故障信息更新至各自的本机故障记录表,然后计算机系统对故障计算机进行重新加电;所述双机工作模式分为两种情况:1)故障计算机为MT模式的计算机,则双机工作模式为一台主机与一台MT模式的正常计算机正常工作;2)故障计算机为主机,主机权按设定的移交次序进行移交后,剩余的两个正常计算机同步工作,2)故障计算机加电后进行系统初始化后,向两个正常计算机发出握手通讯数据,三个计算机握手成功后,三个计算机分别获取本机所处工作状态进行再次确认,即根据握手信息,故障计算机获取当前主机号信息,确认总线工作模式为MT模式的正常计算机的CPU编号,然后进入重构流程;3)在重构流程中,故障计算机将重构通信数据串口初始化为与MT模式的正常计算机的串口即选通重构数据获取通道,从此串口接收MT模式的正常计算机提供的重构数据,所述重构数据包括故障记录表、关键内存数据、FPGA寄存器数据、计数器数据、CPU中断屏蔽寄存器数据和正常计算机堆栈数据;4)故障计算机收取重构数据后,根据数据类型,将故障记录表、关键内存数据、FPGA寄存器数据、计数器数据、和CPU中断屏蔽寄存器数据更新相应位置;5)以上数据更新完成后,故障计算机首先进行堆栈数据区的更新即将堆栈数据更新至堆栈空间,然后故障计算机开始进行现场恢复工作,即根据堆栈数据区数据更新CPU的内部寄存器以及堆栈基址及堆栈指针数据,最后根据更新后的npc指针,进行pc指针的跳转,跳转完成后,故障计算机的软件现场恢复完成,此时故障计算机的软件运行现场、故障记录表、关键内存数据、主机号、FPGA寄存器、计数器、和CPU中断屏蔽寄存器等数据与正常计算机完全一致,重构完成;6)退出重构流程,系统恢复为三机工作模式;恢复三机工作模式后,故障计算机所运行的软件指令和流程与正常计算机完全一致。
地址 264003 山东省烟台市高新区航天路513号