Linux CPU利用率

Linux CPU利用率

在线上服务器观察线上服务运行状态的时候,绝大多数人都是喜欢先用 top 命令看看当前系统的整体 cpu 利用率。例如,随手拿来的一台机器,top 命令显示的利用率信息如下

这个输出结果说简单也简单,说复杂也不是那么容易就能全部搞明白的。例如:

问题 1:top 输出的利用率信息是如何计算出来的,它精确吗?

问题 2:ni 这一列是 nice,它输出的是 cpu 在处理啥时的开销?

问题 3:wa 代表的是 io wait,那么这段时间中 cpu 到底是忙碌还是空闲?

原理介绍

CPU占用率是一个非常重要的指标,它反映了CPU在特定时间内的忙碌程度。

抛开Linux的实现先不谈,如果有如下需求,有一个四核服务器,上面跑了四个进程。

让你来设计计算整个系统CPU利用率的这个需求,支持像top命令这样的输出,满足一下要求:

  • cpu使用率要尽可能地准确;
  • 要能体现秒级瞬时cpu状态;

经过思考你会发现,这个看起来很简单的需求,实际还是有点小复杂的。其中一个思路是把所有进程的执行时间都加起来,然后再除以系统执行总时间*4。这个思路是没问题的,用这种方法统计很长一段时间内的CPU利用率是可以的,统计也足够准确。

但只要用过top你就知道,top输出的CPU利用率并不是长时间不变的,而是默认3秒为单位会动态更新一下,(这个时间间隔可以使用-d设置)。我们的这个方案体现总利用率可以,体现这种瞬时的状态就难办了。你可能会想到那我也3秒算一次不就行了?但这个3秒的时间从哪个点开始呢?粒度很不好控制。

上一个思路问题核心就是如何解决瞬时问题。提到瞬时状态,你可能就又来思路了。那我就用瞬时采样去看,看看当前有几个核在忙。四个核中如果有两个核在忙,那利用率就是50%。这个思路思考的方向也是正确的,但是问题有两个:

  • 你算出的数字都是25%的整数倍;
  • 这个瞬时值会导致CPU使用率显示的剧烈震荡。

比如下图:

在t1的瞬时状态看来,系统的CPU利用率毫无疑问就是100%,但在t2时间看来,使用率又编程0%。思路方向是对的,但显然这种粗暴的计算无法像top命令一样优雅地工作。

我们再改进一下它,把上面两个思路结合起来,可能就能解决我们的问题了。在采样上,我们把周期定的细一些,但在计算上我们把周期定的粗一些。

我们引入采样周期的概念,定时比如每1毫秒采样一次。如果采样的瞬时,cpu在运行,就将这1ms记录为使用,这时会得出一个瞬时的cpu使用率,把它都存起来。

在统计3秒内的CPU使用率的时候,比如途中的t1和t2这段时间范围。那就把这段时间内的所有瞬时值全加一下,取个平均值。这样就能解决上面的问题了,统计相对准确,避免了瞬时值剧烈震荡且粒度过粗(只能以25%为单位变化)的问题了。

可能有同学会问了,假如cpu在两次采样中间发生变化了呢,如下图这种情况:

在当前采样点到来的时候,进程A其实刚执行完,有一点点时间既没有被上一个采样点统计到,本次也统计不到。对于进程B,其实只开了一小端时间,把1ms全记上似乎有点多记了。

确实会存在这个问题,但因为我们的采样是1ms一次,而我们实际查看使用的时候最少也是秒级别地用,会包括有成千上万个采样点的信息,所以这种误差并不会影响我们对全局的把握。

事实上,Linux也就是这样来统计系统CPU利用率的。虽然可能会有误差,但作为一项统计数据使用已经是足够了的。在实现上,Linux是将所有的瞬时值都累加到某一个数据上的,而不是真的存了很多份的瞬时数据。

接下来就让我们进入Linux来查看它对系统CPU利用率统计的具体实现。

原始数据

上一节我们说的Linux在实现上是将瞬时值都累加到某一个数据上的,这个值是内核通过/proc/stat伪文件来对用户态暴露。Linux在计算系统CPU利用率的时候用的就是它。

整体上看,top命令工作的内部细节如下图所示:

  • top命令访问/proc/stat获取各项CPU利用率使用值;
  • 内核调用stat_open函数来处理对/proc/stat的访问
  • 内核访问的数据来源于kernel_cpustat数组,并汇总;
  • 打印输出给用户态;

接下来我们把每一步都展开来详细看看。

通过使用strace跟踪top命令的各种系统调用,可以看的到它对该文件的调用。

strace top

...

openat(AT_FDCWD, "/proc/stat", O_RDONLY) = 4

openat(AT_FDCWD, "/proc/2351514/stat", O_RDONLY) = 8

openat(AT_FDCWD, "/proc/2393539/stat", O_RDONLY) = 8

除了/proc/stat外,还有各个进程细分的/proc/pid/stat,是用来计算各个进程的CPU利用率时使用的。

内核为各个伪文件都定义了处理函数,/proc/stat文件的处理方法是:

proc_stat_operations。//file:fs/proc/stat.c

staticint__init proc_stat_init( void)

{

proc_create( "stat", 0, NULL, &proc_stat_operations);

return0;

}

staticconststructfile_operationsproc_stat_operations= {

.open = stat_open,

...

};

proc_stat_operations 中包含了该文件时对应的操作方法。当打开 /proc/stat 文件的时候,stat_open 就会被调用到。stat_open 依次调用 single_open_size,show_stat 来输出数据内容。我们来看看它的代码:

//file:fs/proc/stat.c

staticintshow_stat(struct seq_file *p, void*v)

{

u64 user, nice, system, idle, iowait, irq, softirq, steal;

for_each_possible_cpu(i) {

structkernel_cpustat* kcs= & kcpustat_cpu( i);

user += kcs->cpustat[CPUTIME_USER];

nice += kcs->cpustat[CPUTIME_NICE];

system += kcs->cpustat[CPUTIME_SYSTEM];

idle += get_idle_time(kcs, i);

iowait += get_iowait_time(kcs, i);

irq += kcs->cpustat[CPUTIME_IRQ];

softirq += kcs->cpustat[CPUTIME_SOFTIRQ];

...

}

//转换成节拍数并打印出来

seq_put_decimal_ull(p, "cpu ", nsec_to_clock_t(user));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(nice));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(system));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(idle));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(iowait));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(irq));

seq_put_decimal_ull(p, " ", nsec_to_clock_t(softirq));

...

}

在上面的代码中,for_each_possible_cpu 是在遍历存储着 cpu 使用率数据的 kcpustat_cpu 变量。该变量是一个 percpu 变量,它为每一个逻辑核都准备了一个数组元素。里面存储着当前核所对应各种事件,包括 user、nice、system、idel、iowait、irq、softirq 等。

在这个循环中,将每一个核的每种使用率都加起来。最后通过 seq_put_decimal_ull 将这些数据输出出来。

注意,在内核中实际每个时间记录的是纳秒数,但是在输出的时候统一都转换成了节拍单位。至于节拍单位多长,下一节我们介绍。总之,/proc/stat的输出是从kernel_cpustat这个percpu变量中读取出来的。

我们接着再看看这个变量中的数据是何时加进来的。

统计数据怎么来的

前面我们提到内核是以采样的方式来统计cpu使用率的。这个采样周期依赖的是Linux时间子系统中的定时器。

Linux内核每隔固定周期会发出timer interrupt,这有点像乐谱中的节拍的概念。每隔一段时间就打出一个拍子,Linux就响应之并处理一些事情。

一个节拍的长度是多长时间,是通过CONFIG_HZ来定义的。它定义的方式是每一秒有几次timer interrupts。不同的系统中这个节拍的大小可能不同,通常在1ms到10ms之间。可以在自己的linux config文件中找到它的配置。

grep ^CONFIG_HZ /boot/config-5.4.56.bsk.10-amd64

CONFIG_HZ=1000

从上述结果中可以看出,我的机器的每秒要打出1000次节拍。

rk3568每秒钟的节拍树为300:

每次当时间中断到来的时候,都会调用update_process_times来更新系统时间。更新后的时间都存储在我们前面提到的percpu变量kcpustat_cpu中。

我们来详细看下汇总过程 update_process_times 的源码,它位于 kernel/time/timer.c 文件中。

//file:kernel/time/timer.c

voidupdate_process_times( intuser_tick)

{

structtask_struct* p= current;

//进行时间累积处理

account_process_tick(p, user_tick);

...

}

这个函数的参数user_tick指的是采样的瞬间是处于内核态还是用户态。接下来调用account_process_tick。

//file:kernel/sched/cputime.c

voidaccount_process_tick(struct task_struct *p, intuser_tick)

{

cputime = TICK_NSEC;

...

if(user_tick)

//3.1 统计用户态时间

account_user_time(p, cputime);

elseif((p != rq->idle) || (irq_count != HARDIRQ_OFFSET))

//3.2 统计内核态时间

account_system_time(p, HARDIRQ_OFFSET, cputime);

else

//3.3 统计空闲时间

account_idle_time(cputime);

}

这 这个函数中,首先设置cputime=TICK_NSEC,一个TICK_NSEC的定义是一个节拍所占的纳秒数。接下俩根据判断劫夺分别执行account_user_time,account_system_time和account_idle_time来统计用户态、内核态和空闲时间。

用户态时间统计

3.1 用户态时间统计 //file:kernel/sched/cputime.c

voidaccount_user_time(struct task_struct *p, u64 cputime)

{

//分两种种情况统计用户态 CPU 的使用情况

intindex;

index = (task_nice(p) > 0) ? CPUTIME_NICE : CPUTIME_USER;

//将时间累积到 /proc/stat 中

task_group_account_field(p, index, cputime);

......

}

account_user_time函数主要分两种情况统计:

  • 如果进程的nice值大于0,那么将会增加到cpu统计结构的nice字段中;
  • 如果进程的nice值小于等于0,那么增加到cpu统计结构的user字段中。

看到这里,开篇的问题2就有答案了,其实用户态的时间不只是user字段,nice也是。之所以要把nice分出来,是为了让Linux用户更一目了然地看到调过nice的进程所占的CPU周期有多少。

我们平时如果想要观察系统的用户态消耗的时间的话,应该是将top中输出的user和nice加起来一并考虑,而不是只看user。

接着调用task_group_acconut_field来把时间加到前面我们用到的kernel_cpustat内核变量中。

//file:kernel/sched/cputime.c

staticinlinevoidtask_group_account_field(struct task_struct *p, intindex,

u64 tmp)

{

__this_cpu_add(kernel_cpustat.cpustat[index], tmp);

...

}

内核态时间统计

我们再来看内核态时间是如何统计的,找到account_system_time的代码。

//file:kernel/sched/cputime.c

voidaccount_system_time(struct task_struct *p, inthardirq_offset, u64 cputime)

{

if(hardirq_count - hardirq_offset)

index = CPUTIME_IRQ;

elseif(in_serving_softirq)

index = CPUTIME_SOFTIRQ;

else

index = CPUTIME_SYSTEM;

account_system_index_time(p, cputime, index);

}

内核态的时间主要分3中情况进行统计。

  • 如果当前处于硬中断执行上下文,那么统计到irq字段中;
  • 如果当前处于软中断执行上下文,那么统计到softirq字段中;
  • 否则统计到system字段中

判断好要加到哪个统计项中后,一次调用account_system_index_time、task_group_account_field来将这段时间加到内核变量kernel_cpustat中。也就是说system+irq+softirq等于内核态占用CPU的比率。

//file:kernel/sched/cputime.c

staticinlinevoidtask_group_account_field(struct task_struct *p, intindex,

u64 tmp)

{

__this_cpu_add(kernel_cpustat.cpustat[index], tmp);

}

空闲时间的累积

每一个 CPU 核心都会有一个 idle 进程,idle 进程是当系统没有调度 CPU 资源的时候,会进入 idle 进程,而 idle 进程的作用就是不使用 CPU,以此达到省电的目的。

在ARM64架构中,当CPU Idle时,会调用WFI指令(wait for interrupt),关掉CPU的Clock以便降低功耗,当有外设中断触发时,CPU又会恢复回来。

没错,在内核变量kernel_cpustat中不仅仅统计了各种用户态、内核态的使用统计,空闲也一并统计起来了,如果在采样的瞬间,cpu既不在内核态也不在用户态的话,就将当前节拍的时间都累加到idle中。

//file:kernel/sched/cputime.c

voidaccount_idle_time(u64 cputime)

{

u64 *cpustat = kcpustat_this_cpu->cpustat;

structrq* rq= this_rq;

if(atomic_read(&rq->nr_iowait) > 0)

cpustat[CPUTIME_IOWAIT] += cputime;

else

cpustat[CPUTIME_IDLE] += cputime;

}

在CPU空闲的情况下,进一步判断是不是在等待IO(例如磁盘IO),如果是的话这段空闲时间会加到iowait中,否则就加到idle中。从这里,我们可以看懂iowait其实是cpu的空闲时间,只不过是在等待IO完成而已。

看到这里,开篇问题3 也有非常明确的答案了,io wait其实是CPU在空闲状态的一项统计,只不过这种状态和idle的区别是cpu是因为等待io而空闲。

总结

本文深入分析了Linux统计系统CPU利用率的内部原理。全文的内容可以用如下一张图来汇总:

Linux中的定时器会以某个固定节拍,比如1ms一次采样各个cpu核的使用情况,然后将当前节拍的所有时间都累加到/user/nice/system/irq/softirq/io_wait/idle中的某一项上,这些项的总和为100%。

top命令是读取的/proc/stat中输出的CPU各项利用率数据,而这个数据在内核中的是根据kernel_cpustat来汇总并输出的。

回到开篇问题1,top输出的利用率信息是如何计算出来的,它精确吗?

/proc/stat文件输出的是某个时间点的各个指标所占用的节拍树。如果想像top那样输出一个百分比,计算过程是分两个时间点t1,t2分别获取一下stat文件中的相关输出,然后经过个简单的算术运算便可以算出当前的CPU利用率。

#!/bin/bash

#获取宿主机的 CPU 使用情况
function get_host_cpu_usage(){
	#内核会在/proc/stat中输出整机CPU的使用情况, 例如:cat /proc/stat 输出如下
	#cpu  52635657 657000 57094567 7675992570 422057 0 545206 0 0 0
	#其中各列中的数值都是从启动到现在的累计和,单位是jiffies
	#除了第一列外,其余每列的含义分别是:
	#  1.user:用户态花费的cpu时间
	#  2.nice:用户态在低优先级花费的cpu时间
	#  3.system:系统态花费的cpu时间
	#  4.idel:在空闲任务上花费的cpu时间
	#  5.iowait:等待I/O花费的cpu时间
	#  6.irq:硬中断花费的cpu时间
	#  7.softirq:软中断花费的cpu时间
	#  8.steal:系统处在虚拟化环境中,你的虚拟机被其他虚拟机占用的 CPU 时间
	#  9.guest:运行虚拟机花费的cpu时间
	#  10.guest_nice:运行低优先级虚拟机花费的cpu时间

	#获取宿主机的 CPU 用量的原理,是选择两个时间点,
	#cpu总时间=user+system+nice+idle+iowait+irq+softirq
	#cpu_usage=100-(idle2-idle1)/(cpu总时间2-cpu总时1)*100

	T1_CPU_INFO=$(cat /proc/stat | grep -w cpu | awk '{print $2,$3,$4,$5,$6,$7,$8}')
	T1_IDLE=$(echo $T1_CPU_INFO | awk '{print $4}')
	T1_TOTAL=$(echo $T1_CPU_INFO | awk '{print $1+$2+$3+$4+$5+$6+$7}')

	sleep 10

	T2_CPU_INFO=$(cat /proc/stat | grep -w cpu | awk '{print $2,$3,$4,$5,$6,$7,$8}')
	T2_IDLE=$(echo $T2_CPU_INFO | awk '{print $4}')
	T2_TOTAL=$(echo $T2_CPU_INFO | awk '{print $1+$2+$3+$4+$5+$6+$7}')

    CPU_UTILIZATION=`echo ${T1_IDLE} ${T1_TOTAL} ${T2_IDLE} ${T2_TOTAL}| awk '{printf "%.2f", (1-($3-$1)/($4-$2))*100}'`
	echo "Host CPU Utiliztion:${CPU_UTILIZATION}%"
}

get_host_cpu_usage

再说是否准确,这个统计方法是采样的,只要是采样,肯定就不是百分之百精确。但由于我们查看CPU使用率的时候往往都是计算1秒甚至更长一段时间的使用情况,这其中会包含很多采样点,所以查看整体情况问题是不大的。

另外从本文,我们也学到了top中输出的CPU的时间项目其实大致可以分为三类:

第一类:用户态消耗时间。包括user和nice。如果想看用户态的消耗,要将user和nice加起来看才对。

第二类:内核态消耗时间。包括irq, softirq和system;

第三类:空闲时间,包括io_wait和idle。其中io_wait也是cpu的空闲状态,只不过是在等io完成而已。如果只是想看CPU到底有多闲,应该把io_wait和idle加起来才对。

mpstat命令

`mpstat` 是一个在 Linux 系统中用于监控多处理器系统性能的工具,全称为 Multiprocessor Statistics。它提供了实时查询每个 CPU 的性能指标以及所有 CPU 的平均指标的功能。`mpstat` 是 `sysstat` 工具集中的一部分,而 `sysstat` 是 Linux 系统性能分析的重要工具集。

`mpstat` 的基本语法为 `mpstat [options] [interval [count]]`,其中:

  • `options` 是命令的参数,包括:
    • `-P { cpu [,...] | ON | ALL }`:指定要报告其统计信息的 CPU。使用 `ALL` 表示报告所有 CPU 的统计信息。
    • `interval`:相邻两次采样的间隔时间。
    • `count`:采样的次数。如果没有指定 `count`,则采样次数为无限次,并在结束后打印平均值。

`mpstat` 的输出包含了多个列,每列代表不同的 CPU 使用率指标,包括:

  • `%usr`:用户态使用的 CPU 百分比。
  • `%nice`:使用 nice 命令对进程进行降级时 CPU 的百分比。
  • `%sys`:内核进程使用的 CPU 百分比。
  • `%iowait`:等待进行 I/O 所使用的 CPU 时间百分比。
  • `%irq`:用于处理系统中断的 CPU 百分比。
  • `%soft`:用于软件中断的 CPU 百分比。
  • `%steal`:虚拟机强制 CPU 等待的时间百分比。
  • `%guest`:虚拟机占用 CPU 时间的百分比。
  • `%idle`:CPU 的空闲时间的百分比。

安装 `mpstat` 通常需要安装 `sysstat` 工具集,安装方法可能因不同的 Linux 发行版而异。例如,在 CentOS 上可以使用 `yum install sysstat` 命令进行安装,而在 Ubuntu 上可以使用 `apt install sysstat`。

RK3568多核CPU的利用率

如果表示我们系统负载高,那么通过top命令查看到的CPU利用率是四个核的平均值吗?之前我们看到单个应用进程占用的CPU利用率超过了100%。

---top 命令看版本。
你截图中的版本,应该是以单核统计的。
单核统计的时候,如果出现多核运行,就会出现COMMAND运行CPU超过100%。

你的截图中,就是系统CPU总占用只有28左右,其中25%都是74中断代码占用的。

如果说系统总占用28%的话,理论上即便一个核被沾满,系统也不应该会挂死吧?还有其他3个核是可以正常运行的,那是不是就可以说明死机并不是由于单个CPU被中断占满导致的?

------top 这个100%只能是参考。他和死机没有必然联系。只是说,这个方向有可能。

如果是CPU0被中断"完全"挂死,响应不了其他中断,也是有可能引起死机的。

有什么办法判断是哪个CPU挂死了呢?

CPU0在挂死之前,会有异常日志打印到串口吗?我们现在死机的时候,串口上没有任何打印。

----怀疑和cpu 100%占用相关,可以写个脚本,监控top,看是哪个程序跑满了cpu

top命令实现

我们使用的top命令一般都是busybox中的:

root@jenet:/usr/bin# busybox
BusyBox v1.32.0 (2022-11-23 22:18:06 CST) multi-call binary.
BusyBox is copyrighted by many authors between 1998-2015.
Licensed under GPLv2. See source distribution for detailed
copyright notices.

Usage: busybox [function [arguments]...]
   or: busybox --list[-full]
   or: busybox --show SCRIPT
   or: busybox --install [-s] [DIR]
   or: function [arguments]...

        BusyBox is a multi-call binary that combines many common Unix
        utilities into a single executable.  Most people will create a
        link to busybox for each function they wish to use and BusyBox
        will act like whatever it was invoked as.

但是rk3568自己提供了一个top程序:

相关推荐
龙鸣丿1 小时前
Linux基础学习笔记
linux·笔记·学习
耶啵奶膘2 小时前
uniapp-是否删除
linux·前端·uni-app
_.Switch3 小时前
高级Python自动化运维:容器安全与网络策略的深度解析
运维·网络·python·安全·自动化·devops
2401_850410833 小时前
文件系统和日志管理
linux·运维·服务器
JokerSZ.3 小时前
【基于LSM的ELF文件安全模块设计】参考
运维·网络·安全
XMYX-04 小时前
使用 SSH 蜜罐提升安全性和记录攻击活动
linux·ssh
芯盾时代4 小时前
数字身份发展趋势前瞻:身份韧性与安全
运维·安全·网络安全·密码学·信息与通信
心灵彼岸-诗和远方5 小时前
DevOps业务价值流:架构设计最佳实践
运维·产品经理·devops
一只哒布刘5 小时前
NFS服务器
运维·服务器
苹果醋36 小时前
Java8->Java19的初步探索
java·运维·spring boot·mysql·nginx