一、故障背景
某客户报修一台设备型号为P510的IBM小型机,告知系统中有提示CPU及内存错误。365bet足球比分工程师赴现场检查,主机正常运行,初步诊断为临时报错,给出的建议是继续观察。两天后,客户告知该小型机宕机,无法启动,问题再次出现并更加严重。365bet足球比分工程师再次到场进行排查,根据现象,定位出故障来源于主板,与客户协商后,决定采取更换主板进行解决。
二、故障排查与解决
更换主板并升级微码后,机器可以正常启动了,业务系统也正常运转。但第二天又接到了客户运维人员的报修电话,客户反映P510小型机故障灯又报警了,操作系统的errpt日志提示B151E40B错误,提示有CEC电源方面的问题。随后,我们尝试了直接关闭故障显示灯、升/降级微码、更换CEC电源等操作,可就在处理完的后一天,故障灯依旧顽强的亮了起来。
P510小型机是2U厚的小型机,机身结构并不复杂,内部除主板(自带CPU)、内存、电源和风扇外,没有其他部件。根据经验,判定问题点不在硬件故障,在仔细研究了硬件手册后, 发现手册的部件拆解比机器上多一个塑料隔板,检查换下的旧主板后发现上面有一个比较明显的隔板卡槽,并在客户的旧件堆中找到了这块隔板。与客户沟通后,原来之前客户升级这台小型机时,认为这个隔板是个普通的装饰板,就没有安装。
实际这个隔板是在主机内部起隔离风道的作用,用来保障机器正常散热。将隔板安装好后,系统再没有出现CEC报错,故障最终被排除。
三、经验总结
从此案例可以看出,小型机内部的每个零件都有相应的作用,哪怕是一个主板上的螺丝或隔板。这些零件上没有任何电子元器件,小型机中的硬件监控无法排查问题,也就不能像硬盘、板卡那样直接提示错误代码及出错位置号,出现问题时,只能报出衍生错误,造成故障无法正确定位。因此,在维修设备时,要仔细研究Service Guide等维护手册,熟悉设备结构,不要忽视任何细节。
如欲了解更多,请登录365bet足球比分官方网站:nx0c.5imeili.net