ORACLE 6节点组成的ACFS文件系统异常的分析思路

近期遇到多次6节点集群的ACFS文件系统环境异常问题；如24日中午12点附近出现ACFS文件系统访问异常，通过查看集群ALERT日志、CSSD进程日志及OSW监控软件的日志，可以发现OSW监控软件在11:55-12:40分时没有收集到虚拟机LINUX主机的监控数据，同期数据库的CSSD进程也有与其它节点的私网信息已经丢失网络心跳，因此可以推断当时主机已经HANG住。

前环境为VMWARE虚拟机环境搭建6节点ORACLE GRID集群，使用ACFS文件系统为应用程序提供数据共享目录 /DATA，应用程序同时部署在6节点ORACLE GRID集群的对应主机上；未在集群环境运行ORACLE数据库。

对于近期两次典型问题分析如下：6/24日中午12点附近出现ACFS文件系统访问异常，通过查看集群ALERT日志、CSSD进程日志及OSW监控软件的日志，可以发现OSW监控软件在11:55-12:40分时没有收集到主机的监控数据，同期数据库的CSSD进程也有与其它节点的私网信息已经丢失网络心跳，因此可以推断当时主机已经HANG住。7/2日上午9点附近ACFS文件系统无法访问，当时OSW监控未开启；从集群ALERT日志来看当时有应用进程在使用/DATA目录无法UNMOUNT，操作系统日志中有NFO: task java:12227 blocked for more than 120 seconds.信息，因未有其它有效信息，暂无法判断当时何种原因导致ACFS文件系统访问异常。

从具体的问题来看，ORACLE集群软件做为操作系统上层的软件，会受到底层操作系统OS以及更底层的VMWARE虚拟机环境的影响；由于几层系统之间监控日志粒度也不同，对于问题的分析带来了较大的复杂度；许多信息无法向下追踪去查找根本原因；

如下为分析过程：

1.集群 alert日志信息

2019-06-24 11:32:43.138:

Jul 2 09:01:49 node1 kernel: [<ffffffff81065df0>] ? default_wake_function+0x0/0x20

Jul 2 09:01:49 node1 kernel: [<ffffffff8152784d>] ? bictcp_cong_avoid+0x2d/0x390

3.数据库CHM相关日志

oracle@node6 node6\]$ cat 02-JUL-2019-09:20:20.txt\|grep "spent too much time" dm-1 ior: 0.000 iow: 1117.912 ios: 279 qlen: 304 wait: 7914;';3:Time=07-02-19 09.15.20, Disk dm-1 spent too much time (7914 msecs) waiting for I/O (\> 100 msecs)' type: SYS sdb ior: 0.000 iow: 1654.062 ios: 152 qlen: 23 wait: 573;';3:Time=07-02-19 09.15.20, Disk sdb spent too much time (573 msecs) waiting for I/O (\> 100 msecs)' type: SYS sda ior: 0.000 iow: 11.182 ios: 1 qlen: 0 wait: 119;';3:Time=07-02-19 09.15.40, Disk sda spent too much time (119 msecs) waiting for I/O (\> 100 msecs)' type: SWAP sda3 ior: 0.000 iow: 11.182 ios: 1 qlen: 0 wait: 119;';3:Time=07-02-19 09.15.40, Disk sda3 spent too much time (119 msecs) waiting for I/O (\> 100 msecs)' type: SYS dm-0 ior: 0.000 iow: 11.182 ios: 2 qlen: 1 wait: 412;';3:Time=07-02-19 09.15.40, Disk dm-0 spent too much time (412 msecs) waiting for I/O (\> 100 msecs)' type: SYS sdc ior: 192.196 iow: 1.996 ios: 7 qlen: 2 wait: 377;';3:Time=07-02-19 09.15.40, Disk sdc spent too much time (377 msecs) waiting for I/O (\> 100 msecs)' type: SYS sdc ior: 106.347 iow: 2.101 ios: 14 qlen: 0 wait: 148;';3:Time=07-02-19 09.16.20, Disk sdc spent too much time (148 msecs) waiting for I/O (\> 100 msecs)' type: SYS sda ior: 0.000 iow: 13.605 ios: 3 qlen: 3 wait: 937;';3:Time=07-02-19 09.16.40, Disk sda spent too much time (937 msecs) waiting for I/O (\> 100 msecs)' type: SWAP sda3 ior: 0.000 iow: 13.605 ios: 3 qlen: 3 wait: 937;';3:Time=07-02-19 09.16.40, Disk sda3 spent too much time (937 msecs) waiting for I/O (\> 100 msecs)' type: SYS dm-1 ior: 0.000 iow: 24.811 ios: 6 qlen: 14 wait: 1565;';3:Time=07-02-19 09.16.40, Disk dm-1 spent too much time (1565 msecs) waiting for I/O (\> 100 msecs)' type: SYS dm-0 ior: 0.000 iow: 15.206 ios: 3 qlen: 4 wait: 838;';3:Time=07-02-19 09.16.40, Disk dm-0 spent too much time (838 msecs) waiting for I/O (\> 100 msecs)' type: SYS sdc ior: 0.899 iow: 2.000 ios: 3 qlen: 1 wait: 382;';3:Time=07-02-19 09.16.40, Disk sdc spent too much time (382 msecs) waiting for I/O (\> 100 msecs)' type: SYS sdb ior: 0.000 iow: 18.407 ios: 1 qlen: 3 wait: 770;';3:Time=07-02-19 09.16.40, Disk sdb spent too much time (770 msecs) waiting for I/O (\> 100 msecs)' type: SYS dm-1 ior: 0.000 iow: 737.072 ios: 184 qlen: 10 wait: 1060;';3:Time=07-02-19 09.16.55, Disk dm-1 spent too much time (1060 msecs) waiting for I/O (\> 100 msecs)' type: SYS sdb ior: 0.000 iow: 1011.573 ios: 15 qlen: 0 wait: 1210;';3:Time=07-02-19 09.16.55, Disk sdb spent too much time (1210 msecs) waiting for I/O (\> 100 msecs)' type: SYS sda ior: 0.000 iow: 8.803 ios: 1 qlen: 0 wait: 3992;';3:Time=07-02-19 09.17.00, Disk sda spent too much time (3992 msecs) waiting for I/O (\> 100 msecs)' type: SWAP sda3 ior: 0.000 iow: 8.803 ios: 1 qlen: 0 wait: 3992;';3:Time=07-02-19 09.17.00, Disk sda3 spent too much time (3992 msecs) waiting for I/O (\> 100 msecs)' type: SYS dm-0 ior: 0.000 iow: 7.202 ios: 1 qlen: 0 wait: 4436;';3:Time=07-02-19 09.17.00, Disk dm-0 spent too much time (4436 msecs) waiting for I/O (\> 100 msecs)' type: SYS sdc ior: 2.596 iow: 1.896 ios: 3 qlen: 1 wait: 370;';3:Time=07-02-19 09.17.40, Disk sdc spent too much time (370 msecs) waiting for I/O (\> 100 msecs)' type: SYS sda ior: 0.000 iow: 21.602 ios: 3 qlen: 1 wait: 1943;';3:Time=07-02-19 09.18.45, Disk sda spent too much time (1943 msecs) waiting for I/O (\> 100 msecs)' type: SWAP sda3 ior: 0.000 iow: 21.602 ios: 3 qlen: 1 wait: 1943;';3:Time=07-02-19 09.18.45, Disk sda3 spent too much time (1943 msecs) waiting for I/O (\> 100 msecs)' type: SYS dm-1 ior: 0.000 iow: 1968.174 ios: 492 qlen: 77 wait: 202;';3:Time=07-02-19 09.18.45, Disk dm-1 spent too much time (202 msecs) waiting for I/O (\> 100 msecs)' type: SYS dm-0 ior: 0.000 iow: 8.801 ios: 2 qlen: 2 wait: 4660;';3:Time=07-02-19 09.18.45, Disk dm-0 spent too much time (4660 msecs) waiting for I/O (\> 100 msecs)' type: SYS sdc ior: 5.700 iow: 2.899 ios: 6 qlen: 0 wait: 1033;';3:Time=07-02-19 09.18.45, Disk sdc spent too much time (1033 msecs) waiting for I/O (\> 100 msecs)' type: SYS dm-1 ior: 0.000 iow: 274.506 ios: 68 qlen: 208 wait: 12512;';3:Time=07-02-19 09.20.05, Disk dm-1 spent too much time (12512 msecs) waiting for I/O (\> 100 msecs)' type: SYS sdb ior: 0.000 iow: 579.425 ios: 47 qlen: 39 wait: 2515;';3:Time=07-02-19 09.20.05, Disk sdb spent too much time (2515 msecs) waiting for I/O (\> 100 msecs)' type: SYS ## ******三、总结与后续处理建议****** #### ******3.1 问题总结****** 当前环境为VMWARE虚拟机环境搭建6节点ORACLE GRID集群，使用ACFS文件系统为应用程序提供数据共享目录 /DATA，应用程序同时部署在6节点ORACLE GRID集群的对应主机上；未在集群环境运行ORACLE数据库。 对于近期两次典型问题分析如下：6/24日中午12点附近出现ACFS文件系统访问异常，通过查看集群ALERT日志、CSSD进程日志及OSW监控软件的日志，可以发现OSW监控软件在11:55-12:40分时没有收集到主机的监控数据，同期数据库的CSSD进程也有与其它节点的私网信息已经丢失网络心跳，因此可以推断当时主机已经HANG住。7/2日上午9点附近ACFS文件系统无法访问，当时OSW监控未开启；从集群ALERT日志来看当时有应用进程在使用/DATA目录 无法UNMOUNT，操作系统日志中有NFO: task java:12227 blocked for more than 120 seconds.信息，因未有其它有效信息，暂无法判断当时何种原因导致ACFS文件系统访问异常。 从具体的问题来看，ORACLE集群软件做为操作系统上层的软件，会受到底层操作系统OS以及更底层的VMWARE虚拟机环境的影响；由于几层系统之间监控日志粒度也不同，对于问题的分析带来了较大的复杂度；许多信息无法向下追踪去查找根本原因； #### ******3.2 后续处理建议****** 因此结合历次问题及整体架构的考虑建议如下： 1.加强对LINUX虚拟主机运行情况的监控，如开启OSW监控，开启ZABBIX监控。 2.建议联系VMWARE虚拟机维护人员沟通是否可以从VMWARE虚拟机层面对LINUX主机进行监控，同时对VMWARE虚拟机本身及底层的物理机能有更加细粒度的监控。 3.ASM实例的memory_max_target内存参数当前为默认的1076M；后续建议调整到2048M，提升ASM实例的性能。