参考文档:
(KB432115) Oracle Linux: Multiple floppy_read_block_0 in D-State causes High Load Average
(KB424510) Oracle Linux: Continuously Increasing High Load Average on the Server.
(KB112591) Top Shows High Load Average
(KB398652) Abnormally High Load Average Numbers Observed On Exadata Server
在很多年前,看到过一个rac,节点1上的load average 在250左右,但是节点1的cpu使用率很低,也没有IO相关的负载。节点2的load average在4左右(当时百思不得其解)
今天看到一个exaddata的计算节点,是x11 。其中一个节点上load average已经快42亿了,另一个节点还不到5 。
在load average 42亿的节点上,看到%CPU使用率很低。部分信息如下
top - 10:46:43 up 208 days, 47 min, 0 users, load average: 4294967301.72, 4294967301.29, 4294967300.87
Tasks: 5139 total, 8 running, 5131 sleeping, 0 stopped, 0 zombie
%Cpu(s): 15.9 us, 10.0 sy, 0.1 ni, 73.1 id, 0.0 wa, 0.3 hi, 0.6 si, 0.0 st
MiB Mem : 778927.1 total, 113914.6 free, 504902.9 used, 160109.5 buff/cache
MiB Swap: 16384.0 total, 16375.2 free, 8.8 used. 250068.2 avail Mem
通过以下命令,查看了下,确实有个进程状态的D.
ps -aux | awk '$8 == "D" {print $0}'
这个进程状态为D的进程为exawatcher.
这个问题,到此得到了解释。
关于(KB398652) Abnormally High Load Average Numbers Observed On Exadata Server这个文档。里面的load average 和今天发现的是一样的(至少前面的42亿多,是一样的)。不过这个文档中提到没有D进程,而且这个文档说的是exadata storage,也就是cell节点。不过今天的是计算节点。
END