发明名称 |
一种分布式计算机系统故障检测机制 |
摘要 |
本发明提供一种分布式计算机系统故障检测机制,用于对分布计算机系统的健康状况进行监测,一旦出现故障或错误,故障检测机制能立即发现,并向操作系统的健康监控服务报告故障,保证系统故障及时被发现处理,提高系统运行可靠性。整个系统故障按照进程级、分区级、模块级、系统级四个层次级别进行故障检测,可以降低故障检测复杂度;故障检测程序分布在系统的各个地方,以被动和主动方式进行检测,提高系统故障检测速率和故障检测覆盖率;故障检测信息报给健康监控服务集中管理。 |
申请公布号 |
CN103605592A |
申请公布日期 |
2014.02.26 |
申请号 |
CN201310638110.6 |
申请日期 |
2013.11.29 |
申请人 |
中国航空工业集团公司第六三一研究所 |
发明人 |
李成文;张亚棣;王卫东;韩强;韩嫚莉;王纯委;何立军;刘宇;何小亚;杨涛;范超;张彬 |
分类号 |
G06F11/22(2006.01)I |
主分类号 |
G06F11/22(2006.01)I |
代理机构 |
西安智邦专利商标代理有限公司 61211 |
代理人 |
杨引雪 |
主权项 |
一种分布式计算机系统故障检测机制,其特征在于,包括以下步骤:1]按照进程级、分区级、模块级、系统级四个层次级别对分布式计算机系统的故障进行分类,设定进程级故障检测程序、分区级故障检测程序、模块级故障检测程序、系统级故障检测程序和对应的健康监控表;2]上述步骤1中的四种故障检测程序通过操作系统的健康监控服务OS‑HM收集故障信息,OS‑HM依据故障代码调度故障处理服务程序,同时给通用管理系统的健康监控HM进程记录故障诊断信息。 |
地址 |
710119 陕西省西安市锦业二路15号 |