发明名称 双控制器磁盘阵列的动态故障检测系统
摘要 双控制器磁盘阵列的动态故障检测系统,属于计算机存储技术领域,解决现有故障检测系统需要大量的样本信息或者对样本要求满足特定概率分布,存储系统的负载较大,计算过程复杂、不稳定的问题。本发明由并行的主、从控制器构成,主、从控制器之间通过第二千兆以太网接口进行心跳故障检测,通过光纤通道适配器进行数据同步;主、从控制器上分别加载心跳模块、信息监控模块、故障切换模块和服务监控模块。本发明启动双心跳检测机制,以防止单心跳检测失效导致的单点故障问题;采用动态心跳设定机制,减少系统开销;故障切换和故障恢复的过程对于用户完全透明;各功能模块执行于应用层,系统易于实现和使用,具有较好的灵活性和可扩展性。
申请公布号 CN101465769A 申请公布日期 2009.06.24
申请号 CN200910060553.5 申请日期 2009.01.16
申请人 华中科技大学 发明人 冯丹;万亚平;曾令仿;陈俭喜;毛波;吴素贞
分类号 H04L12/26(2006.01)I;H04L12/24(2006.01)I;H04L29/08(2006.01)I 主分类号 H04L12/26(2006.01)I
代理机构 华中科技大学专利中心 代理人 方 放
主权项 1. 一种双控制器磁盘阵列的动态故障检测系统,由并行的主控制器和从控制器构成,主控制器和从控制器分别包括CPU、Cache、IDE硬盘、串控制器、第一千兆以太网接口和第二千兆以太网接口,它们通过PCI总线互连,主控制器和从控制器还分别包括光纤通道适配器;主控制器和从控制器之间通过第二千兆以太网接口进行心跳故障检测,通过光纤通道适配器进行数据同步;其特征在于:所述主控制器和从控制器上分别加载心跳模块、信息监控模块、故障切换模块和服务监控模块;所述心跳模块根据本控制器服务监控模块发送过来的值设置心跳发送周期,然后周期性向对方控制器发送心跳消息,心跳消息包括每个控制器自检信息和心跳信息;所述信息监控模块将对方控制器心跳模块发送过来的心跳消息到达时间放入时间窗中,达到设定的数量以后,利用无偏灰色预测模型,预测下一次心跳消息到达时间,并结合心跳到达时间修正值设定判断故障的时限;在判断故障的时限内没有收到对方控制器发送过来的心跳消息,则认为对方控制器失效,通知故障切换模块;所述故障切换模块根据信息监控模块的结果进行相应动作,若对方控制器工作不正常,则切换服务的对象,把对方控制器高速缓存中的数据镜像到本控制器,对第一千兆网卡进行重定向;所述服务监控模块收集本控制器I/O服务的信息,根据系统所提供I/O服务的密集程度设置相应的心跳发送周期并且通知心跳模块。
地址 430074湖北省武汉市洪山区珞喻路1037号