发明名称 容错电脑系统、用在锁步同步容错电脑系统之重新同步方法以及储存媒体
摘要 一种锁步同步容错电脑系统,包括复数计算模组,且每一该计算模组,具有一处理器及一记忆体,并与其他该等计算模组同步处理相同之指令串。当侦测到在每一该计算模组之该等处理器中,对一外部汇流排的存取状态不一致时,假使在包括每一该计算模组之系统中没有侦测到错误,在产生插断至所有该等处理器,以执行使该等计算模组中指令执行之状态达到一致之延迟调整后,以相关之每一该计算模组来执行恢复同步操作之处理。
申请公布号 TWI229791 申请公布日期 2005.03.21
申请号 TW092117918 申请日期 2003.07.01
申请人 电气股份有限公司 发明人 山崎茂雄;爱野茂幸
分类号 G06F11/07 主分类号 G06F11/07
代理机构 代理人 洪澄文 台北市大安区信义路4段279号3楼
主权项 1.一种锁步同步容错电脑系统,包括复数计算模组,且每一该计算模组,具有一处理器及一记忆体,并与其他该等计算模组同步处理相同之指令串,其中当侦测到在每一该计算模组之该等处理器中,对一外部滙流排的存取状态不一致时,假使在包括每一该计算模组之该系统中没有侦测到错误,在产生插断至所有该等处理器,以执行使该等计算模组中指令执行之状态达到一致之延迟调整后,以相关之每一该计算模组来执行恢复同步操作之处理。2.如申请专利范围第1项所述之容错电脑系统,更包括:一侦错器,用以监控该系统中错误之存在或不存在;一滙流排监控器,用以监控在每一该计算模组之该处理器对该外部滙流排之存取;一插断控制装置,在该滙流排监控器侦测到每一该计算模组之每一该处理器对该外部滙流排之存取状态中,同步缺乏之情况下,当该侦错器无侦测错误时,产生用以通知侦测结果之插断给每一该处理器;一内部系统联络控制装置,耦接于每一该计算模组,用以通知在每一该计算模组之该等处理器中指令执行之状态,以及一同步控制装置,耦接于每一该计算模组,在执行每一该计算模组中指令执行之状态达到一致之延迟调整后,恢复所有该等计算模组之操作。3.如申请专利范围第2项所述之容错电脑系统,其中,每一该处理器包括一指令数计数器,用以计算在该处理器中所执行的指令数量,当该等处理器接收来自该插断控制装置之插断,以及转换为重新同步之处理器管理模式时,该指令数计数器失去作用;每一该处理器比较自己拥有之指令数计数器値与接收自其他该等计算模组之每一对应之处理器之指令数计数器値;在该等计算模组中未具有指令数计数器最大値之该计算模组,实施执行指令之延迟调整,直到指令数计数器値与最大指令数计数器値一致,且当指令数计数器値与最大指令数计数器値一致时,送出通知至包括指示最大値之该指令数计数器之该计算模组,以及具有指令数计数器最大値之该计算模组,等待接收来自所有其他该等计算模组之通知,且当接收到所有通知,命令该同步控制装置产生导致所有该等处理模组恢复彼此同步之操作之一重置信号。4.如申请专利范围第3项所述之容错电脑系统,其中,在延迟调整中,具有非为最大之指令数计数器値之该计算模组执行指令,直到指令数计数器値与最大之指令数计数器値一致,该处理器处于一步骤执行模式,以在执行一个指令后,转换为处理器管理模式,以及该等处理器重复该步骤执行模式之处理,直到指令数计数器値与最大之指令数计数器値一致。5.如申请专利范围第2项所述之容错电脑系统,其中,接收来自该插断控制装置之该插断之每一该处理器,转换成为了重新同步处理之处理器管理模式,在重新同步处理中,用以计算在处理器中所执行的指令数之指令数计数器失去作用,且保留并储存程式计数器値;每一该处理器读取每一该处理器之指令数计数器値以及保留之程式计数器値,并传送该等値至所有其他该等计算模组;每一该处理器比较指令数计数器値与接收自其他该等计算模组之该处理器之指令数计数器値;未具有最大之该指令数计数器値之该计算模组,实施执行指令之延迟调整,直到指令数计数器値与最大之指令数计数器値一致,以及当指令数计数器値与最大之指令数计数器値一致时,送出通知给包括指示最大値之指令数计数器之该计算模组,以及包括指示最大値之该指令数计数器之该计算模组,等待接收来自所有其他该等计算模组之通知,且当接收所有通知时,命令该同步控制装置产生导致所有该等处理模组恢复彼此同步之操作之一重置信号。6.如申请专利范围第5项所述之容错电脑系统,其中,在延迟调整中,具有非为最大之该指令数计数器値之该计算模组执行指令,直到指令数计数器値与最大之指令数计数器値一致,该处理器处于中断点指定执行模式,以在指定指令串中一特定位置上执行一个指令后,转换为该处理器管理模式;如在指令串中该特定位置,藉由来自包括指示最大値之指令数计数器之该计算模组之该程式计数器而指示之指令位置被指定,以及在执行于指定指令串中该特定位置之指令串后,该处理器转换为处理器管理模式。7.如申请专利范围第3项所述之容错电脑系统,其中,在具有该指令数计数器最大値之该计算模组读取其程式执行状态后,等待来自其他该等计算模组之通知;在该指令数计数器非为最大値之所有其他该等计算模组执行该延迟调整处理后,读取其程式执行状态,以及传送该等程式执行状态及延迟调整处理完成之通知至具有指令数计数器最大値之该计算模组,以及包括该指令数计数器最大値之该计算模组比较所有该等计算模组之程式执行状态,且当彼此一致时,命令用以恢复同步操作之该重置信号之产生,以及当侦测到程式执行模式不一致之该计算模组,在执行中断处理及使该计算模组无效后,命令用以恢复同步操作之该重置信号之产生。8.如申请专利范围第2项所述之容错电脑系统,其中,提供复数对该侦错器、该滙流排监控器、该插断控制装置、该内部系统联络控制装置以及该同步控制装置。9.一种用在一锁步同步容错电脑系统之重新同步方法,该锁步同步容错电脑系统具有复数计算模组,且每一该计算模组,具有一处理器及一记忆体,并与其他该等计算模组同步处理相同之指令串,包括下列步骤:当侦测到对分别在每一该计算模组之该等处理器中之一外部滙流排所存取之状态不一致时,如果在包括每一该计算模组之系统内无侦测到错误,产生插断于所有该等处理器,以及在执行为了达到在该等计算模组中一致之指令执行状态之延迟调整后,执行与每一该计算模组同步之恢复操作之处理。10.如申请专利范围第9项所述之用在一锁步同步容错电脑系统之重新同步方法,更包括下列步骤:侦测在该系统内之错误之存在或不存在;监控在每一该计算模组内之该处理器对该外部滙流排之存取状态;当侦测到对分别在每一该计算模组之该等处理器中之一外部滙流排所存取之状态不一致时,如果内无侦测到错误,产生用以通知侦测结果之插断至所有该等处理器,以及在执行为了达到在该等计算模组中一致之指令执行状态之延迟调整后,产生一重置信号,其中该重置信号系用以执行所有该等计算模组同步之恢复操作之处理。11.如申请专利范围第10项所述之用在一锁步同步容错电脑系统之重新同步方法,更包括下列步骤:每一该处理器接收为了重新同步处理而用以转换为一处理管理模式之插断,在重新同步处理中,该处理器之用以计算所执行之指令数量之一指令数计数器失去作用;每一该处理器比较所读取之指令数计数器値与来自在其他该等计算模组内之每一该处理器之指令数计数器値;未具有最大之该指令数计数器値之该计算模组,实施执行指令之延迟调整,直到指令数计数器値与最大之指令数计数器値一致,以及当指令数计数器値与最大之指令数计数器値一致时,送出通知给包括指示最大値之指令数计数器之该计算模组,以及包括指示最大値之该指令数计数器之该计算模组,等待接收来自所有其他该等计算模组之通知,且当接收所有通知时,产生导致所有该等处理模组恢复彼此同步之操作之该重置信号。12.如申请专利范围第11项所述之用在一锁步同步容错电脑系统之重新同步方法,其中,在延迟调整中,具有非为最大之该指令数计数器値之该计算模组执行指令,直到指令数计数器値与最大之指令数计数器値一致;该处理器处于步骤执行模式,以在执行一个指令后,转换为该处理器管理模式,以及该等处理器重复该步骤执行模式之处理,直到指令数计数器値与最大之指令数计数器値一致。13.如申请专利范围第10项所述之用在一锁步同步容错电脑系统之重新同步方法,其中,接收该插断之每一该处理器,转换成为了重新同步处理之处理器管理模式,在重新同步处理中,用以计算在该处理器中所执行的指令数之一指令数计数器失去作用,且保留并储存一程式计数器値;每一该处理器读取每一该主里器之指令数计数器値以及保留之该程式计数器値,并传送该等値至所有其他该等计算模组;每一该处理器比较指令数计数器値与接收由其他该等计算模组之该处理器之指令数计数器値;未具有最大之该指令数计数器値之该计算模组,实施执行指令之延迟调整,直到指令数计数器値与最大之指令数计数器値一致,以及当指令数计数器値与最大之指令数计数器値一致时,送出通知给包括指示最大値之该指令数计数器之该计算模组,以及包括指示最大値之该指令数计数器之该计算模组,等待接收来自所有其他该等计算模组之通知,且当接收所有通知时,命令该同步控制装置产生导致所有该等处理模组恢复彼此同步之操作之该重置信号。14.如申请专利范围第13项所述之用在一锁步同步容错电脑系统之重新同步方法,其中,在延迟调整中,具有非为最大之该指令数计数器値之该计算模组执行指令,直到指令数计数器値与最大之指令数计数器値一致,该处理器处于一中断点指定执行模式,以在指定指令串中一特定位置上执行一个指令后,转换为处理器管理模式;如在指令串中该特定位置,藉由来自包括指示最大値之指令数计数器之该计算模组之该程式计数器而指示之指令位置被指定,以及在执行于指定指令串中该特定位置之指令串后,该处理器转换为该处理器管理模式。15.如申请专利范围第11项所述之用在一锁步同步容错电脑系统之重新同步方法,其中,在具有该指令数计数器最大値之该计算模组读取其程式执行状态后,等待来自其他该等计算模组之该通知;在该指令数计数器非为最大値之所有其他该等计算模组执行该延迟调整处理后,读取其程式执行状态,以及传送该等程式执行状态及延迟调整处理完成之通知至具有指令数计数器最大値之该计算模组,以及具有该指令数计数器最大値之该计算模组比较所有该等计算模组之程式执行状态,且当彼此一致时,命令用以恢复同步操作之该重置信号之产生,以及当侦测到程式执行模式不一致之该计算模组,在执行中断处理及使该计算模组无效后,命令用以恢复同步操作之该重置信号之产生。16.一种储存媒体,储存一重新同步程式,用以执行一锁步同步容错电脑系统之重新同步处理,该锁步同步容错电脑系统具有复数计算模组,且每一该计算模组,具有一处理器及一记忆体,并与其他该等计算模组同步处理相同之指令串,包括以下功能:当侦测到对分别在每一该计算模组之该等处理器中之一外部滙流排所存取之状态不一致时,如果在包括每一该计算模组之该系统内无侦测到错误,产生插断至所以该等处理器;以及在执行用以达成在该等计算模组中指令执行状态一致之延迟调整后,导致每一该处理器重新开始同步操作。17.如申请专利范围第16项所述之储存媒体,更包括下列功能:侦测在该系统内之错误之存在或不存在;监控在每一该算模组内之该处理器对该外部滙流排之存取状态;当侦测到对分别在每一该计算模组之该等处理器中之一外部滙流排所存取之状态不一致时,如果内无侦测到错误,产生用以通知侦测结果之插断至每一该处理器,以及在执行为了达到在该等计算模组中一致之指令执行状态之延迟调整后,产生一重置信号,其中该重置信号系用以执行所有该等计算模组同步之恢复操作之处理。18.如申请专利范围第17项所述之储存媒体,包括:每一该处理器接收为了重新同步处理,而用以转换为一处理管理模式之插断,其中,在重新同步处理中,该处理器之用以计算所执行之指令数量之一指令数计数器失去作用;每一该处理器比较所读取之指令数计数器値与来自在其他该等计算模组内之每一该处理器之指令数计数器値;未具有最大之该指令数计数器値之该计算模组,实施执行指令之延迟调整,直到指令数计数器値与最大之指令数计数器値一致,以及当指令数计数器値与最大之指令数计数器値一致时,送出通知给包括指示最大値之指令数计数器之该计算模组,以及包括指示最大値之该指令数计数器之该计算模组,等待接收来自所有其他该等计算模组之通知,且当接收所有通知时,产生导致所有该等处理模组恢复彼此同步之操作之该重置信号。19.如申请专利范围第18项所述之储存媒体,包括:在延迟调整中,具有非为最大之该指令数计数器値之该计算模组执行指令,直到指令数计数器値与最大之指令数计数器値一致;该处理器处于一步骤执行模式,以在执行一个指令后,转换为该处理器管理模式,以及该等处理器重复该步骤执行模式之处理,直到指令数计数器値与最大之指令数计数器値一致。20.如申请专利范围第18项所述之储存媒体,包括:接收该插断之每一该处理器,转换成为了重新同步处理之一处理器管理模式,在该重新同步处理中,用以计算在该处理器中所执行的指令数之指令数计数器失去作用,且保留并储存一程式计数器値;每一该处理器读取每一该主里器之指令数计数器値以及保留之该程式计数器値,并传送该等値至所有其他该等计算模组;每一该处理器比较指令数计数器値与接收由其他该等计算模组之该处理器之指令数计数器値;未具有最大之该指令数计数器値之该计算模组,实施执行指令之延迟调整,直到指令数计数器値与最大之指令数计数器値一致,以及当该等値一致时,送出通知给包括指示最大値之指令数计数器之该计算模组,以及包括指示最大値之该指令数计数器之该计算模组,等待接收来自所有其他该等计算模组之通知,且当接收所有通知时,命令该同步控制装置产生导致所有该等处理模组恢复彼此同步之操作之该重置信号。21.如申请专利范围第20项所述之储存媒体,包括:在延迟调整中,具有非为最大之指令数计数器値之该计算模组执行指令,直到指令数计数器値与最大之指令数计数器値一致,该处理器处于一中断点指定执行模式,以在指定指令串中一特定位置上执行一个指令后,转换为该处理器管理模式;如在指令串中该特定位置,藉由来自包括指示最大値之指令数计数器之该计算模组之该程式计数器而指示之指令位置被指定,以及在该处理器执行于指定指令串中该特定位置之指令串后,转换该处理器为该处理器管理模式。22.如申请专利范围第20项所述之储存媒体,其中,在具有指令数计数器最大値之该计算模组读取其程式执行状态后,等待来自其他该等计算模组之该通知;在具有该指令数计数器最大値之所有其他该等计算模组执行该延迟调整处理后,读取其程式执行状态,以及传送该等程式执行状态及延迟调整处理完成之通知至具有指令数计数器最大値之该计算模组,以及具有指令数计数器最大値之该计算模组比较所有该等计算模组之程式执行状态,且当彼此一致时,命令用以恢复同步操作之该重置信号之产生,以及当侦测到程式执行模式不一致之该计算模组,在执行中断处理及使该计算模组无效后,命令用以恢复同步操作之该重置信号之产生。图式简单说明:第1图表示本发明之第一模式之容错电脑系统之结构方块图。第2图表示根据第一模式之容错电脑系统中第一操作之流程图。第3图表示第2图中步骤208之详细流程图。第4图表示容错电脑系统中第二操作之流程图。第5图表示第4图中步骤408之详细流程图。第6图表示容错电脑系统中之第三操作流程图。第7图表示本发明之第二模式之容错电脑系统之结构方块图。第8图表示根据第二模式之容错电脑系统之操作流程图。第9图表示根据第二模式之容错电脑系统之操作流程图。第10图表示根据第三模式之容错电脑系统之结构方块图。
地址 日本