在linux系统,使用top命令时,可以看到cpu使用统计情况,有时我们会注意到iowait这一项非常高。我们直到,在cpu运行进程、线程时,遇到IO操作,因为IO读写通常比较慢,CPU通常可以阻塞线程,转去执行其他线程,做其他事情。等IO完成之后,通过中断,再通知CPU继续执行之前的线程。
那么问题来了,既然在IO时, CPU会转去做其他事情,那为什么top命令会有时会显示iowait高呢?IO不是基本不怎么消耗CPU么?IO发生时,CPU不是可以转去做其他事情么?iowait是表示CPU用于等待IO操作的时间么?
带着这些疑问,我们来看一下,iowait%究竟是怎么算出来的。 iowait%表示 1. 当前系统存在IO,2. 并且CPU没有其他可以运行的进程/线程,也就是说CPU处于IDLE状态所占用的时间比例。
举个例子,当服务器要访问网络文件系统(比如storage server通过NFS方式让客户端访问),由于网络的问题或者远端server性能问题导致响应慢,而当前服务器又有大量进程、线程要访问这个远端文件系统,当这些进程、线程在某个时刻都处于等待IO的状态,这是这个CPU时间片就会被统计到iowait中。假设当前server中只有一个CPU,一个内核,并且存在一个纯计算的进程,需要占用大量CPU,而其他很多进程都处于IO wait状态,那用top命令看,iowait%可能也不多。但是这时不能断定IO就没有问题,需要结合其他的命令,比如iostat以及ps命令,看一下文件系统繁忙率,以及是否有大量进程长时间处于iowait状态。具体可以参考下边文档,解释的很详细。