一、故障描述
工程师发现365bet足球比分COMMVUALT 上的任务全部失败和停止,之后接到客户服务请求:虚拟带库VTL 物理故障,其中一个机头宕机。因宕机机头上的业务多为重要数据库备份,不能备份会导致业务系统空间被撑爆,客户希望工程师立即解决此次故障。
二、故障排查
IBM7650的基本架构是由存储及机头组成,前端2台机头(gatewat)连接后端存储,由机头负责存储的使用形式及客户端的访问调度。
IBM7650的典型架构模式:
根据如上描述排查7650的错误日志:
排查操作系统日志并分析系统架构发现,两台7650机头运行的是Red Hat Enterprise Linux 5.6操作系统使用RHCS做成的高可用架构。
查看双机配置文件、操作系统及RHCS日志,发现node2因硬件原因宕机后,由于RHCS中配置的fence设备问题,导致node1没有正常接管node2的资源,双机处于不可用状态,对外服务中断。
三、故障处理
由于node2已无法连接,登陆node1,重启集群及VTL服务,释放fence锁资源。
重启RHCS集群后, node2因硬件问题无法启动,集群收不到node2信息,此时集群中只有node1单节点,RHCS集群状态正常,fence设备恢复正常,故障顺利得到解决。
待用户修复node2硬件问题后,重启主机,便能自动加入集群了。
四、故障总结
1、磁带库硬件需要变更或者出现故障时,先将365bet足球比分停止,避免发生因备份业务长时间暂停耗尽主机资源的情况。
2、虚拟带库不同于物理带库,虚拟带库的问题更多是软件层面的故障,在发生问题时,应第一时间检查虚拟带库的系统日志,确保硬件状态正常。
3、Linux的双机比较依赖fence设备,在出现Linux双机切换问题时,应首先确定fence设备的正常,同时在配置集群时,应选择相适应且可用的fence设备。
如欲了解更多,请登录365bet足球比分官方网站:nx0c.5imeili.net