一、问题描述
客户核心营销系统DB2 PureScale数据库突发故障,宕机后无法启动。
硬件资源 :CPU 40Core /MEM 128G
操作系统:RedHat 7.5
DB2版本:DB2 v11.1.4.5
二、问题分析
工程师查看发现数据库集群已经异常停止,并伴有Error的错误:
节点无法与集群管理器建立会话:
数据库日志有“Repair Domian failed”(修复集群失败的错误):
手动启动失败,无法正常启动:
查看GPFS日志发现有GPFS无法正常准备的错误,两边此时GPFS的文件系统无法正常挂载:
DB2 PureScale使用GPFS作为共享文件系统,若GPFS故障,将导致DB2数据库无法使用:
三、问题处理
针对GPFS: 6027-305问题,查阅官方Guide,修改verifyGpfsReady为no,通过禁用verifyGpfsReady功能,解决/var/mmfs/etc/gpfsready不能成功执行的问题。执行后,GPFS可以正常启动,文件系统可自动挂载。
1、DB2 PureScale集群服务包含三个主要组件:
集群管理器:Tivoli SA MP,其中包含了可靠的可伸缩集群技术 (RSCT);
共享的集群化文件系统:IBM 通用并行文件系统 (GPFS);
DB2 集群管理:用于管理与监控集群的 DB2 命令与管理视图;
2、此时GPFS的故障已经解决,lsrpdomain、lsrpnode等RSCT命令在一个节点上可以执行,但在另一个节点上执行时,报错2612-022:
RSCT资源组未正常启动:
无法获取配置资源管理器状态:
由此判断RSCT发生问题:
3、执行以下步骤重新建立两个节点间远程客户端连接。
/usr/sbin/rsct/bin/rmcctrl -A
/usr/sbin/rsct/bin/rmcctrl -p
至此,数据库可以正常启动:
四、经验总结
1、出现此类问题时,逐一分析排查DB2、GPFS、RSCT等日志,准确定位故障原因;
2、与客户沟通得知系统管理员当天升级了OpenSSH,工程师由此判断:升级OpenSSH导致DB2集群两个节点信任出现了问题;
3、维护人员在对系统做出变更前后,应及时通知使用该设备的相关人员,包括系统管理员、数据库管理员、应用维护人员,以便应对突发故障。
如欲了解更多,请登录365bet足球比分官方网站:nx0c.5imeili.net