《Linux从小白到高手》理论篇(九):Linux的资源监控管理

本篇介绍Linux的资源监控管理。

1、CPU 资源管理

进程调度:

Linux 采用公平的进程调度算法,确保每个进程都能获得合理的 CPU 时间。调度算法会根据进程的优先级、等待时间等因素来决定哪个进程获得 CPU 使用权。

可以通过调整进程的优先级来影响其获得 CPU 的机会。例如,使用nice和renice命令可以调整进程的优先级,数值越低优先级越高。

多核处理器管理:

Linux 能够充分利用多核处理器的优势,将进程分配到不同的核心上执行,提高系统的并行处理能力。

可以使用taskset命令将特定的进程绑定到指定的 CPU 核心上,以确保某些关键进程能够获得稳定的 CPU 资源。

2、内存资源管理

内存分配与回收:

Linux 使用虚拟内存管理系统,将物理内存和磁盘空间结合起来,为进程提供内存资源。当进程需要内存时,系统会从空闲的物理内存中分配;当物理内存不足时,会将部分不常用的内存页交换到磁盘上的交换空间(swap)。

可以通过调整/proc/sys/vm/swappiness参数来控制系统将内存页交换到 swap 的倾向。值为 0 表示尽量不使用 swap,值为 100 表示积极使用 swap。

内存缓存与缓冲:

Linux 会使用一部分内存作为文件系统缓存和磁盘缓冲,以提高文件和磁盘 I/O 的性能。这些缓存会根据系统的内存使用情况自动调整大小。

可以使用free命令查看系统的内存使用情况,包括总内存、已使用内存、空闲内存、缓存和缓冲等信息。

3、磁盘资源管理

文件系统管理:

Linux 支持多种文件系统,如 ext4、XFS 等。不同的文件系统在性能、可靠性和功能方面有所不同,可以根据实际需求选择合适的文件系统。

可以使用文件系统的工具和命令来管理磁盘空间,如df命令查看磁盘使用情况,du命令查看目录和文件的磁盘占用情况。

磁盘调度策略:

Linux 内核有多种磁盘调度算法,如 CFQ(完全公平排队)、Deadline 和 Noop。不同的调度算法适用于不同的应用场景,可以根据系统的负载和需求进行调整。

可以通过修改/sys/block/sda/queue/scheduler(假设磁盘设备为sda)文件来选择磁盘调度策略。

4、网络资源管理

网络带宽控制:

Linux 可以通过流量整形(traffic shaping)和队列规则(queue discipline)来控制网络带宽的使用。例如,可以使用tc命令来设置网络接口的带宽限制、优先级等。

可以根据不同的网络应用或用户需求,为特定的网络流量分配不同的带宽份额,确保关键应用的网络性能。

网络连接管理:

Linux 可以通过防火墙(如iptables或firewalld)来管理网络连接,控制哪些 IP 地址、端口和协议可以访问系统。

可以使用网络监控工具(如iftop、nethogs等)来实时查看网络流量的使用情况,以便及时发现和解决网络问题。

5、资源监控与调整

资源监控工具:

Linux 提供了许多工具来监控系统资源的使用情况,如top、htop用于监控 CPU 和内存使用情况,iostat用于监控磁盘 I/O 性能,netstat和ss用于监控网络连接等。

这些工具可以帮助管理员及时发现资源瓶颈和问题,并采取相应的措施进行调整。

资源调整策略:

根据资源监控的结果,可以采取不同的调整策略。例如,如果发现某个进程占用过多的 CPU 资源,可以调整其优先级或限制其 CPU 使用率;如果磁盘空间不足,可以清理不必要的文件或扩展磁盘容量。

通过合理的资源管理,Linux 系统可以在不同的工作负载下保持高效、稳定的运行,为用户提供良好的性能和可靠性。

6、Linux资源管理常用命令

free内存监控

1、基本用法

--直接运行free:输入free命令并回车,将显示系统内存的总量、已使用量、空闲量、共享内存量、缓冲 / 缓存量以及交换分区的使用情况。

--输出的单位通常是千字节(KB)。

2、显示单位选择

--以兆字节(MB)为单位显示:

--使用free -m命令,这样可以更直观地查看内存使用情况,尤其是在内存较大的系统中。

--例如,输出可能显示 "total used free shared buffers cached" 等字段,每个字段的值都是以兆字节为单位。

--以G字节(GB)为单位显示:

--使用free -g命令,适合内存非常大的系统。

3、显示特定信息

仅显示内存信息,不显示交换分区信息:

使用free -m --memonly或free -m -o,这样可以专注于内存的使用情况,排除交换分区的干扰。

以人类可读的格式显示:

使用free -h,它会自动选择合适的单位(KB、MB、GB 等)来显示内存和交换分区的大小,使输出更易于理解。

四、持续监测内存使用情况

使用watch命令结合free:

例如,watch -n 5 free -m将每 5 秒执行一次free -m命令,动态显示内存使用情况的变化。

五、输出字段解释

total:系统总的物理内存或交换分区大小。

used:已经被使用的内存或交换分区大小。

free:未被使用的内存或交换分区大小。

shared:被多个进程共享的内存大小。

buff/cache:用于磁盘缓存和缓冲区的内存大小。

注:buffers 与 cached 的区别:

--buffers 是指用来给块设备做的缓冲大小,他只记录文件系统的 metadata 以及 tracking in-flight pages.

--cached 是用来给文件做缓冲。也就是说:buffers 是用来存储,目录里面有什么内容,权限等等。

而 cached 直接用来记忆我们打开的文件

available(在一些系统中可能需要特定选项才能显示):表示系统中可供新进程使用的估计内存大小。

通过灵活使用free命令及其选项,可以方便地监控系统内存的使用情况,及时发现内存不足或内存泄漏等问题,以便采取相应的措施进行优化和调整。

2、vmstat

在 Linux 中,vmstat(Virtual Memory Statistics)命令用于显示虚拟内存、进程、CPU 活动等系统信息。

1、基本用法

直接运行vmstat:

--输入vmstat命令并回车,将显示系统的一些关键性能指标,包括进程、内存、交换分区、I/O、系统和 CPU 的信息。

--默认情况下,输出是一次性的,显示自系统启动以来的平均统计信息。

2、显示间隔和次数

以指定时间间隔显示统计信息:

--使用vmstat interval,其中interval是时间间隔,单位为秒。例如,vmstat 5将每 5 秒显示一次系统统计信息。

--显示指定次数的统计信息:

使用vmstat interval count,其中count是要显示的次数。例如,vmstat 2 3将每 2 秒显示一次系统统计信息,共显示 3 次。

3、输出字段解释

procs:

r:运行队列中的进程数,即等待 CPU 时间片的进程数量。

b:处于不可中断睡眠状态的进程数,通常是等待 I/O 完成的进程。

memory:

swpd:使用的交换分区大小(单位为 KB)。

free:空闲内存大小。

buff:用于缓冲区的内存大小。

cache:用于缓存的内存大小。

swap:

si:从磁盘交换到内存的页面数量(单位为 KB/s)。

so:从内存交换到磁盘的页面数量(单位为 KB/s)。

io:

bi:从块设备读取的块数量(单位为块 /s)。

bo:向块设备写入的块数量(单位为块 /s)。

system:

in:每秒的中断次数。

cs:每秒的上下文切换次数。

cpu:

us:用户空间占用 CPU 的百分比。

sy:内核空间占用 CPU 的百分比。

id:空闲 CPU 的百分比。

wa:等待 I/O 的 CPU 时间百分比。

st:被虚拟机偷走的 CPU 时间百分比(如果在虚拟化环境中)。

4、持续监控系统性能:

vmstat 5可以每 5 秒显示一次系统性能统计信息,实时了解系统的运行状态。如果发现某个指标异常,可以进一步分析问题所在。

分析内存使用情况:

关注swpd、free、buff和cache字段,可以了解系统的内存使用情况。如果swpd值不断增加,可能表示内存不足,系统正在频繁使用交换分区。

检查 CPU 负载:

us、sy、id和wa字段可以帮助你了解 CPU 的使用情况。如果us和sy值较高,可能表示用户进程和内核占用了较多的 CPU 时间;如果wa值较高,可能表示系统存在 I/O 瓶颈。

通过灵活使用vmstat命令,可以快速了解系统的性能状况,及时发现问题并采取相应的措施进行优化和调整。

3、iostat

iostat(I/O statistics)命令用于报告 CPU 和磁盘 I/O 的统计信息。

1、基本用法

直接运行iostat:

--输入iostat命令并回车,将显示系统自启动以来的 CPU 和磁盘 I/O 的平均统计信息。

--输出包括 CPU 的%user(用户空间占用 CPU 百分比)、%nice(低优先级进程占用 CPU 百分比)、%system(内--核空间占用 CPU 百分比)、%iowait(等待 I/O 完成占用 CPU 百分比)等信息,以及每个磁盘设备的tps(每秒传输次数)、kB_read/s(每秒读取的千字节数)、kB_wrtn/s(每秒写入的千字节数)等信息。

2、显示时间间隔和次数

以指定时间间隔显示统计信息:

--使用iostat interval,其中interval是时间间隔,单位为秒。例如,iostat 5将每 5 秒显示一次系统统计信息。

显示指定次数的统计信息:

--使用iostat interval count,其中count是要显示的次数。例如,iostat 2 3将每 2 秒显示一次系统统计信息,共显示 3 次。

3、显示特定磁盘设备

显示特定磁盘设备的统计信息:

--使用iostat -d device,其中device是磁盘设备名称,如sda、hda等。例如,iostat -d sda将显示sda磁盘的 I/O 统计信息。

4、输出字段解释

CPU部分:

%user:用户空间进程占用 CPU 的百分比。

%nice:低优先级进程占用 CPU 的百分比。

%system:内核空间进程占用 CPU 的百分比。

%iowait:等待 I/O 完成占用 CPU 的百分比。

%steal:被虚拟机偷走的 CPU 时间百分比(如果在虚拟化环境中)。

%idle:空闲 CPU 的百分比。

Device部分(每个磁盘设备的信息):

tps:每秒传输次数,即每秒的 I/O 请求次数。

kB_read/s:每秒读取的千字节数。

kB_wrtn/s:每秒写入的千字节数。

kB_read:自系统启动以来读取的总千字节数。

kB_wrtn:自系统启动以来写入的总千字节数。

5、持续监控磁盘 I/O 性能:

--iostat -d 5可以每 5 秒显示一次磁盘 I/O 统计信息,帮助你实时了解磁盘的读写性能。如果发现某个磁盘设备的读写速度异常,可以进一步分析问题所在。

分析特定磁盘设备:

--如果你怀疑某个特定磁盘设备存在性能问题,可以使用iostat -d device来专门查看该设备的统计信息。例如,iostat ---d sdb将只显示sdb磁盘的 I/O 情况。

结合其他工具进行性能分析:

可以将iostat的输出与其他性能监控工具(如top、vmstat等)结合使用,全面分析系统的性能状况。例如,如果iostat显示某个磁盘设备的 I/O 等待时间较高,可以使用top或vmstat查看是否有进程在大量占用该磁盘设备。

通过灵活使用iostat命令,可以有效地监控系统的磁盘 I/O 性能,及时发现性能瓶颈并采取相应的措施进行优化和调整。

4、uptime

uptime命令用于显示系统的运行时间以及当前的负载情况。

1、基本用法

直接运行uptime:

--输入uptime命令并回车,将显示系统自上次启动以来的运行时间、当前登录的用户数量以及系统在过去 1、5 和 15 分钟内的平均负载。

--例如,输出可能是"10:30:00 up 5 days, 2:23, 3 users, load average: 0.50, 0.32, 0.25",表示当前时间是 10:30,系统已经运行了 5 天 2 小时 23 分钟,有 3 个用户登录,过去 1、5 和 15 分钟内的平均负载分别是 0.50、0.32 和 0.25。

2、输出字段解释

"up"后面的时间:

表示系统自上次启动以来的运行时间。格式通常是"天数,小时:分钟"。

"users":

显示当前登录到系统的用户数量。

"load average":

系统的平均负载,分别是过去 1、5 和 15 分钟内的平均负载。平均负载是指在特定时间间隔内,处于可运行状态(正在运行或等待运行)的进程的平均数量。

例如,"load average: 0.50, 0.32, 0.25"表示在过去 1 分钟内平均有 0.50 个进程处于可运行状态,过去 5 分钟内平均有 0.32 个进程,过去 15 分钟内平均有 0.25 个进程。

3、监控系统运行时间和负载:

--定期运行uptime命令可以了解系统的稳定性和负载情况。如果平均负载持续较高,可能表示系统资源紧张,需要进一步分析是 CPU、内存还是磁盘 I/O 等方面的问题。

4、结合其他工具进行性能分析:

--可以将uptime的输出与其他性能监控工具(如top、vmstat、iostat等)结合使用,全面了解系统的性能状况。例如,如果uptime显示平均负载较高,可以使用top查看哪些进程占用了较多的 CPU 资源。

通过使用uptime命令,可以快速了解系统的运行时间和负载情况,为系统管理和性能优化提供参考依据。

5、mpstat

mpstat(MultiProcessor Statistics)命令用于显示每个 CPU 的使用情况以及整个系统的 CPU 统计信息。

1、基本用法

直接运行mpstat:

--输入mpstat命令并回车,将显示自系统启动以来的平均 CPU 统计信息,包括每个 CPU 的用户空间占用时间百分比(% usr)、内核空间占用时间百分比(% sys)、空闲时间百分比(% idle)等。

--默认情况下,mpstat显示所有 CPU 的平均统计信息。

2、显示时间间隔和次数

以指定时间间隔显示统计信息:

使用mpstat interval,其中interval是时间间隔,单位为秒。例如,mpstat 5将每 5 秒显示一次 CPU 统计信息。

显示指定次数的统计信息:

使用mpstat interval count,其中count是要显示的次数。例如,mpstat 2 3将每 2 秒显示一次 CPU 统计信息,共显示 3 次。

3、输出字段解释

CPU:表示 CPU 的编号。如果系统有多个 CPU,每个 CPU 都有一行对应的统计信息。

%usr:用户空间进程占用 CPU 的百分比。

%nice:低优先级进程占用 CPU 的百分比。

%sys:内核空间进程占用 CPU 的百分比。

%iowait:等待 I/O 完成占用 CPU 的百分比。

%irq:处理硬件中断占用 CPU 的百分比。

%soft:处理软件中断占用 CPU 的百分比。

%steal:被虚拟机偷走的 CPU 时间百分比(如果在虚拟化环境中)。

%guest:运行虚拟机中的客户机占用 CPU 的百分比。

%gnice:运行带有低优先级的虚拟机中的客户机占用 CPU 的百分比。

%idle:空闲 CPU 的百分比。

4、特定用法

监控单个 CPU 的性能:

可以通过mpstat -P CPU_NUMBER来监控特定 CPU 的性能,其中CPU_NUMBER是 CPU 的编号。例如,mpstat -P 0将只显示编号为 0 的 CPU 的统计信息。

持续监控系统 CPU 性能:

mpstat 5可以每 5 秒显示一次系统的 CPU 统计信息,帮助你实时了解各个 CPU 的使用情况以及系统整体的 CPU 负载。如果发现某个 CPU 的负载异常高,可以进一步分析是哪个进程在该 CPU 上运行并消耗大量资源。

结合其他工具进行性能分析:

可以将mpstat的输出与其他性能监控工具(如top、vmstat、iostat等)结合使用,全面分析系统的性能状况。例如,如果mpstat显示某个 CPU 的%iowait较高,可以使用iostat查看是否该 CPU 对应的磁盘设备存在 I/O 瓶颈。

通过使用mpstat命令,可以深入了解系统中各个 CPU 的使用情况,及时发现性能问题并采取相应的措施进行优化和调整。

6、pmap

pmap命令用于显示进程的内存映射关系。

1、基本用法

显示特定进程的内存映射:

--pmap PID,其中PID是进程标识符。例如,pmap 1234将显示进程 ID 为 1234 的内存映射情况。

2、输出字段解释

地址范围:

--显示进程使用的内存地址范围,例如 "0000555555554000-0000555555555000"。

权限:

--表示该内存区域的访问权限,如 "r-xp" 表示可读、可执行但不可写。常见的权限标志包括 "r"(可读)、"w"(可写)、"x"(可执行)、"s"(共享)、"p"(私有)等。

偏移量:

-内存映射文件在文件中的偏移量。

设备:

--内存映射的设备编号,通常是磁盘设备或匿名内存的特殊设备编号。

大小:

--该内存区域的大小,以字节为单位。

映射名称:

--如果该内存区域是映射自一个文件,这里将显示文件的名称;如果是匿名内存,则可能显示类似于 "[heap]"、"[stack]" 等描述信息。

3、惯用用法

分析进程内存使用情况:

通过查看pmap的输出,可以了解一个进程使用了多少内存,哪些部分是代码、数据、堆、栈等,以及是否有大量的共享内存或内存泄漏的迹象。

查找内存占用较大的区域:

如果一个进程占用了大量内存,可以使用pmap来确定哪些内存区域是主要的占用者。例如,如果发现一个很大的匿名内存区域,可能是进程的堆空间在不断增长,提示可能存在内存泄漏问题。

与其他工具结合使用:

pmap可以与其他内存分析工具(如valgrind用于检测内存泄漏)结合使用,以更深入地了解进程的内存使用情况和潜在问题。通过使用pmap命令,可以深入了解进程的内存布局和使用情况,对于诊断内存相关问题和优化系统性能非常有帮助。

7、sar

sar(System Activity Reporter)命令是一个强大的系统性能监测工具。

1、基本用法

立即查看系统活动:

--sar:默认情况下,它会显示当天自零点以来的 CPU 使用率统计信息。例如,输出可能包括用户空间、系统空间、I/O 等待等 CPU 时间的百分比。

指定时间间隔和次数:

--sar interval count:其中interval是时间间隔,单位为秒;count是要显示的次数。例如,sar 5 3将每 5 秒显示一次系统统计信息,共显示 3 次。

2、监控特定资源

CPU 使用率:

sar -u:显示 CPU 的使用情况,包括用户空间、系统空间、空闲时间等百分比。

内存使用情况:

sar -r:显示内存的使用情况,包括物理内存总量、已使用内存、空闲内存、缓冲和缓存等信息。

磁盘 I/O 活动:

sar -b:显示磁盘块设备的活动情况,包括每秒读取和写入的块数量等。

sar -d:更详细地显示每个磁盘设备的 I/O 统计信息。

网络活动:

sar -n DEV:显示网络接口的活动情况,包括接收和发送的数据包数量、字节数等。可以指定不同的参数来查看特定类型的网络统计信息,如IP、Ethernet等。

3、输出字段解释

CPU 使用率(sar -u输出):
%user:用户空间进程占用 CPU 的百分比。
%nice:低优先级进程占用 CPU 的百分比。
%system:内核空间进程占用 CPU 的百分比。
%iowait:等待 I/O 完成占用 CPU 的百分比。
%steal:被虚拟机偷走的 CPU 时间百分比(如果在虚拟化环境中)。
%idle:空闲 CPU 的百分比。
内存使用情况(sar -r输出):
kbmemfree:空闲物理内存大小,单位为千字节。
kbmemused:已使用物理内存大小。
%memused:已使用内存的百分比。
kbbuffers:用于缓冲区的内存大小。
kbcached:用于缓存的内存大小。
磁盘 I/O 活动(sar -b或sar -d输出):
tps:每秒传输次数,即每秒的 I/O 请求次数。
rtps:每秒读取的传输次数。
wtps:每秒写入的传输次数。
bread/s:每秒读取的块数量。
bwrtn/s:每秒写入的块数量。
网络活动(sar -n DEV输出):
IFACE:网络接口名称。
rxpck/s:每秒接收的数据包数量。
txpck/s:每秒发送的数据包数量。
rxkB/s:每秒接收的千字节数。
txkB/s:每秒发送的千字节数。

4、惯用用法

持续监控系统性能:

sar -u 5 10可以每 5 秒显示一次 CPU 使用率统计信息,共显示 10 次。这对于观察系统在一段时间内的 CPU 负载变化非常有用。

分析磁盘 I/O 瓶颈:

如果系统的磁盘 I/O 性能较差,可以使用sar -d来查看每个磁盘设备的 I/O 活动情况。如果发现某个设备的tps、rtps或wtps很高,或者await(平均等待时间)很长,可能表示该设备存在 I/O 瓶颈。

检查网络问题:

sar -n DEV可以帮助了解网络接口的活动情况。如果发现接收或发送的数据包数量异常高,或者网络带宽使用率很高,可能表示网络存在问题。可以进一步分析是哪个应用程序在大量使用网络资源。

通过灵活使用sar命令,可以全面了解系统的性能状况,及时发现问题并采取相应的措施进行优化和调整。

本篇完结。
码字不易,宝贵经验分享不易,请各位支持原创,转载注明出处,多多关注作者。

相关推荐
安大小万16 分钟前
C++ 学习:深入理解 Linux 系统中的冯诺依曼架构
linux·开发语言·c++
dntktop20 分钟前
隐私保护+性能优化,RyTuneX 让你的电脑更快更安全
运维·windows
Channing Lewis26 分钟前
python生成随机字符串
服务器·开发语言·python
猿小喵32 分钟前
MySQL四种隔离级别
数据库·mysql
九品神元师32 分钟前
jupyter配置说明
linux·ide·jupyter
Y编程小白38 分钟前
Redis可视化工具--RedisDesktopManager的安装
数据库·redis·缓存
fajianchen1 小时前
大厂案例——腾讯蓝鲸DevOps类应用的设计与实践
运维·devops
黯然~销魂1 小时前
root用户Linux银河麒麟服务器安装vnc服务
linux·运维·服务器
资深设备全生命周期管理1 小时前
以Python 做服务器,N Robot 做客户端,小小UI,拿捏
服务器·python·ui
洪小帅1 小时前
Django 的 `Meta` 类和外键的使用
数据库·python·django·sqlite