Linux CPU利用率

在线上服务器观察线上服务运行状态的时候，绝大多数人都是喜欢先用 top 命令看看当前系统的整体 cpu 利用率。例如，随手拿来的一台机器，top 命令显示的利用率信息如下

这个输出结果说简单也简单，说复杂也不是那么容易就能全部搞明白的。例如：

问题 1：top 输出的利用率信息是如何计算出来的，它精确吗？

问题 2：ni 这一列是 nice，它输出的是 cpu 在处理啥时的开销？

问题 3：wa 代表的是 io wait，那么这段时间中 cpu 到底是忙碌还是空闲？

原理介绍

CPU占用率是一个非常重要的指标，它反映了CPU在特定时间内的忙碌程度。

抛开Linux的实现先不谈，如果有如下需求，有一个四核服务器，上面跑了四个进程。

让你来设计计算整个系统CPU利用率的这个需求，支持像top命令这样的输出，满足一下要求：

cpu使用率要尽可能地准确；
要能体现秒级瞬时cpu状态；

经过思考你会发现，这个看起来很简单的需求，实际还是有点小复杂的。其中一个思路是把所有进程的执行时间都加起来，然后再除以系统执行总时间*4。这个思路是没问题的，用这种方法统计很长一段时间内的CPU利用率是可以的，统计也足够准确。

但只要用过top你就知道，top输出的CPU利用率并不是长时间不变的，而是默认3秒为单位会动态更新一下，（这个时间间隔可以使用-d设置）。我们的这个方案体现总利用率可以，体现这种瞬时的状态就难办了。你可能会想到那我也3秒算一次不就行了？但这个3秒的时间从哪个点开始呢？粒度很不好控制。

上一个思路问题核心就是如何解决瞬时问题。提到瞬时状态，你可能就又来思路了。那我就用瞬时采样去看，看看当前有几个核在忙。四个核中如果有两个核在忙，那利用率就是50%。这个思路思考的方向也是正确的，但是问题有两个：

你算出的数字都是25%的整数倍；
这个瞬时值会导致CPU使用率显示的剧烈震荡。

比如下图：

在t1的瞬时状态看来，系统的CPU利用率毫无疑问就是100%，但在t2时间看来，使用率又编程0%。思路方向是对的，但显然这种粗暴的计算无法像top命令一样优雅地工作。

我们再改进一下它，把上面两个思路结合起来，可能就能解决我们的问题了。在采样上，我们把周期定的细一些，但在计算上我们把周期定的粗一些。

我们引入采样周期的概念，定时比如每1毫秒采样一次。如果采样的瞬时，cpu在运行，就将这1ms记录为使用，这时会得出一个瞬时的cpu使用率，把它都存起来。

在统计3秒内的CPU使用率的时候，比如途中的t1和t2这段时间范围。那就把这段时间内的所有瞬时值全加一下，取个平均值。这样就能解决上面的问题了，统计相对准确，避免了瞬时值剧烈震荡且粒度过粗（只能以25%为单位变化）的问题了。

可能有同学会问了，假如cpu在两次采样中间发生变化了呢，如下图这种情况：

在当前采样点到来的时候，进程A其实刚执行完，有一点点时间既没有被上一个采样点统计到，本次也统计不到。对于进程B，其实只开了一小端时间，把1ms全记上似乎有点多记了。

确实会存在这个问题，但因为我们的采样是1ms一次，而我们实际查看使用的时候最少也是秒级别地用，会包括有成千上万个采样点的信息，所以这种误差并不会影响我们对全局的把握。

事实上，Linux也就是这样来统计系统CPU利用率的。虽然可能会有误差，但作为一项统计数据使用已经是足够了的。在实现上，Linux是将所有的瞬时值都累加到某一个数据上的，而不是真的存了很多份的瞬时数据。

接下来就让我们进入Linux来查看它对系统CPU利用率统计的具体实现。

原始数据

上一节我们说的Linux在实现上是将瞬时值都累加到某一个数据上的，这个值是内核通过/proc/stat伪文件来对用户态暴露。Linux在计算系统CPU利用率的时候用的就是它。

整体上看，top命令工作的内部细节如下图所示：

top命令访问/proc/stat获取各项CPU利用率使用值；
内核调用stat_open函数来处理对/proc/stat的访问
内核访问的数据来源于kernel_cpustat数组，并汇总；
打印输出给用户态；

接下来我们把每一步都展开来详细看看。

通过使用strace跟踪top命令的各种系统调用，可以看的到它对该文件的调用。

strace top

...

openat(AT_FDCWD, "/proc/stat", O_RDONLY) = 4

openat(AT_FDCWD, "/proc/2351514/stat", O_RDONLY) = 8

openat(AT_FDCWD, "/proc/2393539/stat", O_RDONLY) = 8

除了/proc/stat外，还有各个进程细分的/proc/pid/stat，是用来计算各个进程的CPU利用率时使用的。

内核为各个伪文件都定义了处理函数，/proc/stat文件的处理方法是：

proc_stat_operations。//file:fs/proc/stat.c

复制代码

staticint__init proc_stat_init( void)

{

proc_create( "stat", 0, NULL, &proc_stat_operations);

return0;

}

staticconststructfile_operationsproc_stat_operations= {

.open = stat_open,

...

};

proc_stat_operations 中包含了该文件时对应的操作方法。当打开 /proc/stat 文件的时候，stat_open 就会被调用到。stat_open 依次调用 single_open_size，show_stat 来输出数据内容。我们来看看它的代码：

复制代码

//file:fs/proc/stat.c

staticintshow_stat(struct seq_file *p, void*v)

{

u64 user, nice, system, idle, iowait, irq, softirq, steal;

for_each_possible_cpu(i) {

structkernel_cpustat* kcs= & kcpustat_cpu( i);

user += kcs->cpustat[CPUTIME_USER];

nice += kcs->cpustat[CPUTIME_NICE];

system += kcs->cpustat[CPUTIME_SYSTEM];

idle += get_idle_time(kcs, i);

iowait += get_iowait_time(kcs, i);

irq += kcs->cpustat[CPUTIME_IRQ];

softirq += kcs->cpustat[CPUTIME_SOFTIRQ];

...

}

//转换成节拍数并打印出来

复制代码

seq_put_decimal_ull(p, "cpu ", nsec_to_clock_t(user));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(nice));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(system));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(idle));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(iowait));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(irq));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(softirq));

...

}

在上面的代码中，for_each_possible_cpu 是在遍历存储着 cpu 使用率数据的 kcpustat_cpu 变量。该变量是一个 percpu 变量，它为每一个逻辑核都准备了一个数组元素。里面存储着当前核所对应各种事件，包括 user、nice、system、idel、iowait、irq、softirq 等。

在这个循环中，将每一个核的每种使用率都加起来。最后通过 seq_put_decimal_ull 将这些数据输出出来。

注意，在内核中实际每个时间记录的是纳秒数，但是在输出的时候统一都转换成了节拍单位。至于节拍单位多长，下一节我们介绍。总之，/proc/stat的输出是从kernel_cpustat这个percpu变量中读取出来的。

我们接着再看看这个变量中的数据是何时加进来的。

统计数据怎么来的

前面我们提到内核是以采样的方式来统计cpu使用率的。这个采样周期依赖的是Linux时间子系统中的定时器。

Linux内核每隔固定周期会发出timer interrupt，这有点像乐谱中的节拍的概念。每隔一段时间就打出一个拍子，Linux就响应之并处理一些事情。

一个节拍的长度是多长时间，是通过CONFIG_HZ来定义的。它定义的方式是每一秒有几次timer interrupts。不同的系统中这个节拍的大小可能不同，通常在1ms到10ms之间。可以在自己的linux config文件中找到它的配置。

grep ^CONFIG_HZ /boot/config-5.4.56.bsk.10-amd64

CONFIG_HZ=1000

从上述结果中可以看出，我的机器的每秒要打出1000次节拍。

rk3568每秒钟的节拍树为300：

每次当时间中断到来的时候，都会调用update_process_times来更新系统时间。更新后的时间都存储在我们前面提到的percpu变量kcpustat_cpu中。

我们来详细看下汇总过程 update_process_times 的源码，它位于 kernel/time/timer.c 文件中。

复制代码

//file:kernel/time/timer.c

voidupdate_process_times( intuser_tick)

{

structtask_struct* p= current;

//进行时间累积处理

account_process_tick(p, user_tick);

...

}

这个函数的参数user_tick指的是采样的瞬间是处于内核态还是用户态。接下来调用account_process_tick。

复制代码

//file:kernel/sched/cputime.c

voidaccount_process_tick(struct task_struct *p, intuser_tick)

{

cputime = TICK_NSEC;

...

if(user_tick)

//3.1 统计用户态时间

account_user_time(p, cputime);

elseif((p != rq->idle) || (irq_count != HARDIRQ_OFFSET))

//3.2 统计内核态时间

account_system_time(p, HARDIRQ_OFFSET, cputime);

else

//3.3 统计空闲时间

account_idle_time(cputime);

}

这这个函数中，首先设置cputime=TICK_NSEC，一个TICK_NSEC的定义是一个节拍所占的纳秒数。接下俩根据判断劫夺分别执行account_user_time，account_system_time和account_idle_time来统计用户态、内核态和空闲时间。

用户态时间统计

复制代码

3.1 用户态时间统计 //file:kernel/sched/cputime.c

voidaccount_user_time(struct task_struct *p, u64 cputime)

{

//分两种种情况统计用户态 CPU 的使用情况

intindex;

index = (task_nice(p) > 0) ? CPUTIME_NICE : CPUTIME_USER;

//将时间累积到 /proc/stat 中

task_group_account_field(p, index, cputime);

......

}

account_user_time函数主要分两种情况统计：

如果进程的nice值大于0，那么将会增加到cpu统计结构的nice字段中；
如果进程的nice值小于等于0，那么增加到cpu统计结构的user字段中。

看到这里，开篇的问题2就有答案了，其实用户态的时间不只是user字段，nice也是。之所以要把nice分出来，是为了让Linux用户更一目了然地看到调过nice的进程所占的CPU周期有多少。

我们平时如果想要观察系统的用户态消耗的时间的话，应该是将top中输出的user和nice加起来一并考虑，而不是只看user。

接着调用task_group_acconut_field来把时间加到前面我们用到的kernel_cpustat内核变量中。

复制代码

//file:kernel/sched/cputime.c

staticinlinevoidtask_group_account_field(struct task_struct *p, intindex,

u64 tmp)

{

__this_cpu_add(kernel_cpustat.cpustat[index], tmp);

...

}

内核态时间统计

我们再来看内核态时间是如何统计的，找到account_system_time的代码。

复制代码

//file:kernel/sched/cputime.c

voidaccount_system_time(struct task_struct *p, inthardirq_offset, u64 cputime)

{

if(hardirq_count - hardirq_offset)

index = CPUTIME_IRQ;

elseif(in_serving_softirq)

index = CPUTIME_SOFTIRQ;

else

index = CPUTIME_SYSTEM;

account_system_index_time(p, cputime, index);

}

内核态的时间主要分3中情况进行统计。

如果当前处于硬中断执行上下文，那么统计到irq字段中；
如果当前处于软中断执行上下文，那么统计到softirq字段中；
否则统计到system字段中

判断好要加到哪个统计项中后，一次调用account_system_index_time、task_group_account_field来将这段时间加到内核变量kernel_cpustat中。也就是说system+irq+softirq等于内核态占用CPU的比率。

复制代码

//file:kernel/sched/cputime.c

staticinlinevoidtask_group_account_field(struct task_struct *p, intindex,

u64 tmp)

{

__this_cpu_add(kernel_cpustat.cpustat[index], tmp);

}

空闲时间的累积

每一个 CPU 核心都会有一个 idle 进程，idle 进程是当系统没有调度 CPU 资源的时候，会进入 idle 进程，而 idle 进程的作用就是不使用 CPU，以此达到省电的目的。

在ARM64架构中，当CPU Idle时，会调用WFI指令(wait for interrupt)，关掉CPU的Clock以便降低功耗，当有外设中断触发时，CPU又会恢复回来。

没错，在内核变量kernel_cpustat中不仅仅统计了各种用户态、内核态的使用统计，空闲也一并统计起来了，如果在采样的瞬间，cpu既不在内核态也不在用户态的话，就将当前节拍的时间都累加到idle中。

复制代码

//file:kernel/sched/cputime.c

voidaccount_idle_time(u64 cputime)

{

u64 *cpustat = kcpustat_this_cpu->cpustat;

structrq* rq= this_rq;

if(atomic_read(&rq->nr_iowait) > 0)

cpustat[CPUTIME_IOWAIT] += cputime;

else

cpustat[CPUTIME_IDLE] += cputime;

}

在CPU空闲的情况下，进一步判断是不是在等待IO（例如磁盘IO），如果是的话这段空闲时间会加到iowait中，否则就加到idle中。从这里，我们可以看懂iowait其实是cpu的空闲时间，只不过是在等待IO完成而已。

看到这里，开篇问题3 也有非常明确的答案了，io wait其实是CPU在空闲状态的一项统计，只不过这种状态和idle的区别是cpu是因为等待io而空闲。

总结

本文深入分析了Linux统计系统CPU利用率的内部原理。全文的内容可以用如下一张图来汇总：

Linux中的定时器会以某个固定节拍，比如1ms一次采样各个cpu核的使用情况，然后将当前节拍的所有时间都累加到/user/nice/system/irq/softirq/io_wait/idle中的某一项上，这些项的总和为100%。

top命令是读取的/proc/stat中输出的CPU各项利用率数据，而这个数据在内核中的是根据kernel_cpustat来汇总并输出的。

回到开篇问题1，top输出的利用率信息是如何计算出来的，它精确吗？

/proc/stat文件输出的是某个时间点的各个指标所占用的节拍树。如果想像top那样输出一个百分比，计算过程是分两个时间点t1,t2分别获取一下stat文件中的相关输出，然后经过个简单的算术运算便可以算出当前的CPU利用率。

复制代码

#!/bin/bash

#获取宿主机的 CPU 使用情况
function get_host_cpu_usage(){
	#内核会在/proc/stat中输出整机CPU的使用情况, 例如：cat /proc/stat 输出如下
	#cpu  52635657 657000 57094567 7675992570 422057 0 545206 0 0 0
	#其中各列中的数值都是从启动到现在的累计和，单位是jiffies
	#除了第一列外，其余每列的含义分别是：
	#  1.user：用户态花费的cpu时间
	#  2.nice：用户态在低优先级花费的cpu时间
	#  3.system：系统态花费的cpu时间
	#  4.idel：在空闲任务上花费的cpu时间
	#  5.iowait：等待I/O花费的cpu时间
	#  6.irq：硬中断花费的cpu时间
	#  7.softirq：软中断花费的cpu时间
	#  8.steal：系统处在虚拟化环境中，你的虚拟机被其他虚拟机占用的 CPU 时间
	#  9.guest：运行虚拟机花费的cpu时间
	#  10.guest_nice：运行低优先级虚拟机花费的cpu时间

	#获取宿主机的 CPU 用量的原理，是选择两个时间点，
	#cpu总时间=user+system+nice+idle+iowait+irq+softirq
	#cpu_usage=100-(idle2-idle1)/(cpu总时间2-cpu总时1)*100

	T1_CPU_INFO=$(cat /proc/stat | grep -w cpu | awk '{print $2,$3,$4,$5,$6,$7,$8}')
	T1_IDLE=$(echo $T1_CPU_INFO | awk '{print $4}')
	T1_TOTAL=$(echo $T1_CPU_INFO | awk '{print $1+$2+$3+$4+$5+$6+$7}')

	sleep 10

	T2_CPU_INFO=$(cat /proc/stat | grep -w cpu | awk '{print $2,$3,$4,$5,$6,$7,$8}')
	T2_IDLE=$(echo $T2_CPU_INFO | awk '{print $4}')
	T2_TOTAL=$(echo $T2_CPU_INFO | awk '{print $1+$2+$3+$4+$5+$6+$7}')

    CPU_UTILIZATION=`echo ${T1_IDLE} ${T1_TOTAL} ${T2_IDLE} ${T2_TOTAL}| awk '{printf "%.2f", (1-($3-$1)/($4-$2))*100}'`
	echo "Host CPU Utiliztion:${CPU_UTILIZATION}%"
}

get_host_cpu_usage

再说是否准确，这个统计方法是采样的，只要是采样，肯定就不是百分之百精确。但由于我们查看CPU使用率的时候往往都是计算1秒甚至更长一段时间的使用情况，这其中会包含很多采样点，所以查看整体情况问题是不大的。

另外从本文，我们也学到了top中输出的CPU的时间项目其实大致可以分为三类:

第一类：用户态消耗时间。包括user和nice。如果想看用户态的消耗，要将user和nice加起来看才对。

第二类：内核态消耗时间。包括irq, softirq和system;

第三类：空闲时间，包括io_wait和idle。其中io_wait也是cpu的空闲状态，只不过是在等io完成而已。如果只是想看CPU到底有多闲，应该把io_wait和idle加起来才对。

mpstat命令

`mpstat` 是一个在 Linux 系统中用于监控多处理器系统性能的工具，全称为 Multiprocessor Statistics。它提供了实时查询每个 CPU 的性能指标以及所有 CPU 的平均指标的功能。`mpstat` 是 `sysstat` 工具集中的一部分，而 `sysstat` 是 Linux 系统性能分析的重要工具集。

`mpstat` 的基本语法为 `mpstat [options] [interval [count]]`，其中：

`options` 是命令的参数，包括：
- `-P { cpu [,...] | ON | ALL }`：指定要报告其统计信息的 CPU。使用 `ALL` 表示报告所有 CPU 的统计信息。
- `interval`：相邻两次采样的间隔时间。
- `count`：采样的次数。如果没有指定 `count`，则采样次数为无限次，并在结束后打印平均值。

`mpstat` 的输出包含了多个列，每列代表不同的 CPU 使用率指标，包括：

`%usr`：用户态使用的 CPU 百分比。
`%nice`：使用 nice 命令对进程进行降级时 CPU 的百分比。
`%sys`：内核进程使用的 CPU 百分比。
`%iowait`：等待进行 I/O 所使用的 CPU 时间百分比。
`%irq`：用于处理系统中断的 CPU 百分比。
`%soft`：用于软件中断的 CPU 百分比。
`%steal`：虚拟机强制 CPU 等待的时间百分比。
`%guest`：虚拟机占用 CPU 时间的百分比。
`%idle`：CPU 的空闲时间的百分比。

安装 `mpstat` 通常需要安装 `sysstat` 工具集，安装方法可能因不同的 Linux 发行版而异。例如，在 CentOS 上可以使用 `yum install sysstat` 命令进行安装，而在 Ubuntu 上可以使用 `apt install sysstat`。

RK3568多核CPU的利用率

如果表示我们系统负载高，那么通过top命令查看到的CPU利用率是四个核的平均值吗？之前我们看到单个应用进程占用的CPU利用率超过了100%。

---top 命令看版本。
你截图中的版本，应该是以单核统计的。
单核统计的时候，如果出现多核运行，就会出现COMMAND运行CPU超过100%。

你的截图中，就是系统CPU总占用只有28左右，其中25%都是74中断代码占用的。

如果说系统总占用28%的话，理论上即便一个核被沾满，系统也不应该会挂死吧？还有其他3个核是可以正常运行的，那是不是就可以说明死机并不是由于单个CPU被中断占满导致的？

------top 这个100%只能是参考。他和死机没有必然联系。只是说，这个方向有可能。

如果是CPU0被中断"完全"挂死，响应不了其他中断，也是有可能引起死机的。

有什么办法判断是哪个CPU挂死了呢？

CPU0在挂死之前，会有异常日志打印到串口吗？我们现在死机的时候，串口上没有任何打印。

----怀疑和cpu 100%占用相关，可以写个脚本，监控top，看是哪个程序跑满了cpu

top命令实现

我们使用的top命令一般都是busybox中的：

复制代码

root@jenet:/usr/bin# busybox
BusyBox v1.32.0 (2022-11-23 22:18:06 CST) multi-call binary.
BusyBox is copyrighted by many authors between 1998-2015.
Licensed under GPLv2. See source distribution for detailed
copyright notices.

Usage: busybox [function [arguments]...]
   or: busybox --list[-full]
   or: busybox --show SCRIPT
   or: busybox --install [-s] [DIR]
   or: function [arguments]...

        BusyBox is a multi-call binary that combines many common Unix
        utilities into a single executable.  Most people will create a
        link to busybox for each function they wish to use and BusyBox
        will act like whatever it was invoked as.

但是rk3568自己提供了一个top程序：