发明名称 一种基于内存错误的服务器预警方法
摘要 本发明提供一种基于内存错误的服务器预警方法,1)通过系统中断的方式处理错误,在BIOS级别做全部处理,不需要操作系统的参与,精确定位内存出错位置,在系统发生内存错误时利用RAS特性做系统内存低层次的恢复,从而保证了系统的稳定运行,在大型企业级服务器集群上更为重要。2)在系统内存初始化时根据BIOS的设置选项选择CPU在检查到内存ECC校验错误时候是否发出SMI中断。3)在系统运行的过程中,若CPU检查到内存ECC校验错误,则通过中断发送出来。4)BIOS在收到中断后通过判断错误的级别是否需要采取进一步的RAS恢复,以及将错误恢复结果和具体错误内存条信息发送到BMC。5)BMC来解析错误具体信息并且将其发送到管理员邮箱,由系统管理员决定。
申请公布号 CN102681909A 申请公布日期 2012.09.19
申请号 CN201210128966.4 申请日期 2012.04.28
申请人 浪潮电子信息产业股份有限公司 发明人 曹光耀
分类号 G06F11/10(2006.01)I 主分类号 G06F11/10(2006.01)I
代理机构 代理人
主权项 一种基于内存错误的服务器预警方法, 其特征在于包括以下步骤:(1)检查BIOS的设置是否开启了内存预警;(2)如果开启了内存预警则转步骤(3),否则返回;(3)在服务器初始化阶段设置CPU中断,当其检测到内存错误的时候发出SMI中断;(4)当CPU检测到ECC校验错误时发出SMI中断;(5)BIOS的SMI Handler检测BIOS的设置是否开启了RAS,如果开启RAS则转步骤(6),否则转步骤8;(6)检测内存错误数是否达到了启动RAS特性的临界值,若使是,转步骤(7),否则转步骤(8);(7)根据RAS设置包括:内存热备,内存镜像,内存双颗粒数据校正,来采取对应的措施,并且通过IPMI命令将对应的事件发送给BMC;(8)将发生错误的内存条的信息以及当前其总计发生的错误数目发送到BMC;(9)BMC将BIOS发送的信息以易读的方式实时解析到界面,并且实时的以Mail的方式发送给系统管理员,方便下次停机维护的时候对对应发生错误的内存进行处置。
地址 250014 山东省济南市高新区舜雅路1036号