文章目录
在Linux性能分析和优化过程中,选用一个好的工具能极大的提高自己的工作效率。这里以Brendan Gregg的Linux性能工具图谱为线索,梳理了Linux系统下各个模块的性能分析工具,并对部分常用工具的用法进行了详细说明。掌握这些工具,可以极大的提高开发者程序性能优化的效果和效率。
静态性能分析工具
文件系统观测工具
shell
# df命令作用是列出文件系统的整体磁盘空间使用情况
# -h:--human-readable,以人们易读的GB、MB、KB等格式显示
# -a: 显示所有的文件系统; -k 以kb为容量显示单位; -m 以mb为容量显示单位
# 指定文件名称是查看文件所在目录磁盘使用情况,不加名称是所有磁盘的使用情况;
df -h filename
显示效果如下:
虚拟文件系统(VFS)分析工具
shell
# lsof 是系统管理/安全监测工具, 用来获取和网络相关的信息
lsof -i # 显示所有的网络连接
lsof -i 6 # 仅获取ipv6的流量
lsof -iTCP # 仅显示TCP连接
lsof -i :port # 用来显示指定端口的网络信息
losf -i@127.0.0.1 # 显示指定到某个主机的连接
losf -i@127.0.0.1:22 # 指定到某个主机端口的连接
losf -i -sTCP:LISTEN # 找到正在等候连接的端口
lsof -i -sTCP:ESTABLISHED # 找出已经建立的连接
lsof -u daniel # 查看指定用户打开了什么
kill -9 `lsof -t -u daniel` # 杀死指定用户做的一切事情
lsof -u ^daniel # 除了daniel用户其它用户做的事情
lsof -c syslog-ng # 查看指定的命令正在使用的文件和网络连接
lsof -p 10075 # 查看指定进程ID已打开的内容
lsof /var/log/fil # 显示与指定目录/文件交互的所有一切
shell
# pcstat 用于判断一个文件是否被Linux cache缓存
# github地址: https://github.com/tobert/pcstat
pcstat testfile3
|-----------+----------------+------------+-----------+---------|
| Name | Size | Pages | Cached | Percent |
|-----------+----------------+------------+-----------+---------|
| LICENSE | 11323 | 3 | 0 | 000.000 |
| README.md | 6768 | 2 | 2 | 100.000 |
| pcstat | 3065456 | 749 | 749 | 100.000 |
| pcstat.go | 9687 | 3 | 3 | 100.000 |
| testfile3 | 102401024 | 25001 | 60 | 000.240 |
|-----------+----------------+------------+-----------+---------|
磁盘管理工具
shell
# mdadm命令可以进行创建、调整、监控、删除RAID设备
mdadm [参数] 设备名
mdadm -D # 显示RAID设备的详细信息
mdadm -a # 向RAID中添加新设备
mdadm -G # 设置RAID设备大小
mdadm -E # 显示RAID设备成员的详细信息
# dmsetup(Device mapper setup)的缩写 用于管理硬盘映射器
dmsetup [参数] 逻辑卷名
dmsetup deps # 显示设备的依赖关系
dmsetup info # 显示有关磁盘映射器的概述信息
dmsetup ls # 显示映射设备的名称列表
dmsetup remove # 删除指定的磁盘设备
dmsetup status # 显示指定设备中每个目标的状态信息
dmsetup table # 显示虚拟设备的映射表
进程资源占用监测
shell
# pidstat 监控全部或指定进程的cpu、内存、线程、设备IO等系统资源的占用情况
pidstat -u -p ALL # 显示了所有进程的cpu使用率
pidstat -u # CPU使用情况统计
pidstat -r # 内存使用情况统计
pidstat -d # 集成的IO使用情况统计
pidstat -w -p 2831 # 显示进程2831的上下文切换情况
pidstat -t -p 2831 # 显示选择任务的线程的统计信息外的额外信息
pidstat -T TASK # 报告独立的task
pidstat -T CHILD # 进程下所有线程统计信息
pidstat -T ALL # 报告独立的task和task下面的所有线程
系统库调用分析工具
shell
# ldd 打印程序或者库文件所依赖的共享库列表
ldd --version # 打印指令版本号;
ldd -v # 详细信息模式,打印所有相关信息
ldd -u # 打印未使用的直接依赖
ldd -d # 执行重定位和报告任何丢失的对象
ldd -r # 执行数据对象和函数的重定位,并且报告任何丢失的对象和函数
ldd --help # 显示帮助信息
网络配置
shell
ip link show # 显示网络接口信息
ip link list # 用ip命令显示网络设备的运行状态
ip -s link list # 显示更加详细的设备信息
ip link set eth0 up # 开启网卡
ip link set eth0 down # 关闭网卡
ip link set eth0 txqueuelen 1200 # 设置网卡队列长度
ip link set eth0 mtu 1400 # 设置网卡最大传输单元
ip link | grep -E '^[0-9]' | awk -F: '{print $2}' # 显示主机的所有网络接口
ip addr show # 显示网卡IP信息
ip addr add 192.168.0.1/24 dev eth0 # 为eth0网卡添加一个新的IP地址192.168.0.1
ip addr del 192.168.0.1/24 dev eth0 # 为eth0网卡删除一个IP地址192.168.0.1
ip route show # 显示系统路由
ip route list # 显示路由核心表
ip route add default via 192.168.1.254 # 设置系统默认路由
ip route list # 查看路由信息
ip route add default via 192.168.0.254 dev eth0 # 设置默认网关为192.168.0.254
ip route del 192.168.4.0/24 # 删除192.168.4.0网段的网关
ip route del default # 删除默认路由
ip route delete 192.168.1.0/24 dev eth0 # 删除路由
防火墙配置
shell
# iptables 是Linux上常用的防火墙软件
iptables -F # 清空所有的防火墙规则
iptables -X # 删除用户自定义的空链
iptables -Z # 清空计数
iptables -A INPUT -s 192.168.1.0/24 -p tcp --dport 22 -j ACCEPT
# 22为你的ssh端口, -s 192.168.1.0/24表示允许这个网段的机器来连接,其它网段的ip地址是登陆不了你的机器的。 -j ACCEPT表示接受这样的请求
# #本地圆环地址就是那个127.0.0.1,是本机上使用的,它进与出都设置为允许
iptables -A INPUT -i lo -j ACCEPT
iptables -A OUTPUT -o lo -j ACCEPT
iptables -P INPUT DROP # 配置默认的不让进
iptables -P FORWARD DROP # 默认的不允许转发
iptables -P OUTPUT ACCEPT # 默认的可以出去
# 配置白名单
iptables -A INPUT -p all -s 192.168.1.0/24 -j ACCEPT # 允许机房内网机器可以访问
iptables -A INPUT -p tcp -s 183.121.3.7 --dport 3380 -j ACCEPT # 允许183.121.3.7访问本机的3380端口
# 开启相应的服务端口
iptables -A INPUT -p tcp --dport 80 -j ACCEPT # 开启80端口,因为web对外都是这个端口
iptables -A INPUT -p icmp --icmp-type 8 -j ACCEPT # 允许被ping
iptables -A INPUT -m state --state ESTABLISHED,RELATED -j ACCEPT # 已经建立的连接得让它进来
# 保存规则到配置文件中
cp /etc/sysconfig/iptables /etc/sysconfig/iptables.bak # 任何改动之前先备份,请保持这一优秀的习惯
iptables-save > /etc/sysconfig/iptables
cat /etc/sysconfig/iptables
# 查看已经设置的规则
# iptables -L [-t 表名] [链名]
# 四个表名 raw,nat,filter,mangle
# 五个规则链名 INPUT、OUTPUT、FORWARD、PREROUTING、POSTROUTING
# filter表包含INPUT、OUTPUT、FORWARD三个规则链
iptables -L -t nat # 列出nat上面的所有规则
iptables -L -t nat --line-numbers # 规则带编号
iptables -L INPUT # 查看某个规则链
iptables -L -nv # 查看规则链的详细信息
iptables -L -n -v # 查看已添加的规则
# 清除已有规则
iptables -F INPUT # 清空指定链 INPUT 上面的所有规则
iptables -X INPUT # 删除指定的链,这个链必须没有被其它任何规则引用,而且这条上必须没有任何规则
# 如果没有指定链名,则会删除该表中所有非内置的链
iptables -Z INPUT # 把指定链,或者表中的所有链上的所有计数器清零
# 删除已添加的规则
iptables -A INPUT -s 192.168.1.5 -j DROP # 添加规则
iptables -L -n --line-numbers # 查看规则列表
iptables -D INPUT 8 # 删除序号为8的规则
# 开放指定的端口
iptables -A INPUT -p tcp --dport 80 -j ACCEPT #允许访问80端口
# 屏蔽IP地址
iptables -I INPUT -s 123.45.6.7 -j DROP #屏蔽单个IP的命令
iptables -I INPUT -s 123.0.0.0/8 -j DROP #封整个段即从123.0.0.1到123.255.255.254的命令
# 启动端口映射
# 本机的 2222 端口映射到内网 虚拟机的22 端口
iptables -t nat -A PREROUTING -d 210.14.67.127 -p tcp --dport 2222 -j DNAT --to-dest 192.168.188.115:22
# 过滤所有TCP连接中的字符串test
iptables -A INPUT -p tcp -m string --algo kmp --string "test" -j REJECT --reject-with tcp-reset
多路径配置
shell
# multipath 是一个用于管理多路径设备的命令行工具
# 常用于处理存储设备中的多路径配置
multipath -ll # 显示系统中所有的多路径设备及其状态信息
multipath -W # 禁用所有多路径设备
multipath -r # 重新扫描并重新发现所有的多路径设备
进程调度
shell
# schedtool是一个用于设置进程调度策略和优先级的命令行工具
schedtool -E <command> # 启动一个新的进程,并使用 schedtool 运行该进程
schedtool -B <PID> # 将指定进程设置为后台运行,降低其调度优先级
schedtool -F <PID> # 将指定进程设置为前台运行,提高其调度优先级
schedtool -D <PID> # 将指定进程设置为非休眠状态,以便更频繁地运行
schedtool -N <PID> # 将指定进程设置为休眠状态,降低其调度频率
schedtool -p <priority> <PID> # 设置指定进程的静态优先级。较低的值表示较高的优先级。
schedtool -R <PID> # 将指定进程设置为实时(Real-time)优先级。
schedtool -u <CPU utilization> <PID> # 设置指定进程的 CPU 利用率限制。
系统命令操作
shell
sysctl # 被用于在内核运行时动态地修改内核的运行参数
journalctl # 检索 systemd 日志,是 CentOS 7 才有的工具
lsmod # 显示已载入系统的模块
查看硬件信息
shell
cat cat /proc/cpuinfo # 查看CPU信息
lscpu # 显示有关CPU架构的信息
numactl # 工具可用于查看当前服务器的NUMA节点配置、状态,可通过该工具将进程绑定到指定CPUcore
磁盘管理
shell
lsblk # 列出块设备信息 -a 显示所有设备
blockdev # 从命令行调用区块设备控制程序
fdisk -l # 查看磁盘使用情况和磁盘分区
网络端口
shell
ethtool # 显示或修改以太网卡的配置信息
ifconfig # 处于激活状态的网络接口
ifconfig -a # 所有配置的网络接口,不论其是否激活
ifconfig eth0 # 显示eth0的网卡信息
ifconfig eth0 up # 启动网卡
ifconfig eth0 down # 关闭网卡
# 设置IP 子网掩码 广播地址
ifconfig eth0 192.168.2.10 netmask 255.255.255.0 broadcast 192.168.2.255
硬件信息
shell
dmidecode # 在Linux系统下获取有关硬件方面的信息
lspci # 显示当前主机的所有PCI总线信息
lsusb # 显示本机的USB设备列表信息
监测工具
内核调用监测
shell
# perf 强大的性能分析工具
perf top # 动态时实追踪显示占用CPU较高的进程
perf report # 重放perf.data的内容
perf record -p # 指定追踪进程的PID
perf record -g # 启用进程中函数的调用关系
perf record -a # 追踪所有的CPU
perf record sleep N # 采集多长时间的数据
perf record -ag sleep 10;perf report # 采集10s的数据并分析
# CPU使用率很高的常见原因
# 第一个原因,进程在不停地崩溃重启,比如因为段错误、配置错误等等
# 第二个原因,这些进程都是短时进程,也就是在其他应用内部通过 exec 调用的外面命令。这些命令一般都只运行很短的时间就会结束
# ftrace 是一个 Linux 内部的 trace 工具,能够帮助开发者和系统设计者知道内核当前正在干啥,从而更好的去分析性能问题。
# SystemTap 是一种跟踪和探测工具,它使用户可以详细研究和监视操作系统(特别是内核)的活动
# BCC是一个Python库,简化了eBPF应用的开发过程,并收集了大量性能分析相关的eBPF应用。
# LTTng(Linux Trace Toolkit Next Generation)它是用于跟踪 Linux 内核、应用程序以及库的系统软件包.
lttng list -k # 列出所有的可追踪内核事件
lttng create mysession # 创建一个追踪会话(session)
lttng start # 开启追踪
lttng enable-event -a -k # 追踪内核所有的探测点和所有的系统调用事件
lttng enable-event -a -k --syscall # 追踪所有的系统调用
lttng add-context -k -e sched_switch -t pid # 打开一个事件的上下文信息
lttng stop # 关闭追踪
lttng destroy # 关闭追踪
系统调用监测
shell
# strace命令 是一个集诊断、调试、统计与一体的工具
strace -c # 统计每一系统调用的所执行的时间,次数和出错的次数等.
strace -d # 输出strace关于标准错误的调试信息.
strace -f # 跟踪由fork调用所产生的子进程.
strace -o # 将strace的结果输出到文件中
strace -T # 将每个系统调用所花费的时间打印出来
strace -p pid # 追踪现有的进程的pid
# Trace 主要用来跟踪和记录系统的内核、内核扩展程序和用户程序,尤其是对系统调用,内核服务和中断处理进行详细的记录
trace -a # 后台运行
trace -l # 循环模式
trace -o # 输出到文件
trace -T # 表示缓冲区的大小
# sysdig 是一个开源系统发掘工具, 用于系统级别的勘察和排障
系统函数调用监测
shell
# ltrace命令 是用来跟踪进程调用库函数的情况
ltrace -a # 对齐具体某个列的返回值
ltrace -c # 计算时间和调用,并在程序退出时打印摘要
ltrace -C # 解码低级别名称(内核级)为用户级名称
ltrace -d # 打印调试信息
ltrace -e # 改变跟踪的事件
ltrace -f # 跟踪子进程
ltrace -h # 打印帮助信息
ltrace -i # 打印指令指针,当库调用时
ltrace -l # 只打印某个库中的调用
ltrace -L # 不打印库调用
ltrace -o # 把输出定向到文件
ltrace -p PID # 附着在值为PID的进程号上进行ltrace
ltrace -r # 打印相对时间戳
ltrace -s STRLEN # 设置打印的字符串最大长度
ltrace -S # 显示系统调用。
ltrace -t, -tt, -ttt # 打印绝对时间戳
ltrace -T # 输出每个调用过程的时间开销
系统性能监测
shell
# Latencytop 通过在内核上下文切换的时候,记录被切换的进程的内核栈,然后通过匹配内核栈的函数来判断是什么原因导致上下文切换
# Latencytop 可以用来分析系统延迟
# mpstat 用来显示可用CPU的状态
# PowerTOP 是一个 Linux 工具,用于诊断电量消耗和电源管理的问题
# cat /proc/stat 显示统计数据信息
系统资源监测
shell
# top 可以实时动态地查看系统的整体运行情况(CPU、内存)
top -i 时间 # 设置间隔时间
top -u 用户名 # 指定用户名
top -p pid # 指定进程
top -n 次数 # 循环显示的次数
top -H # 所有线程占用资源情况
top -I # 忽略失效过程;
top -s # 保密模式
top -S # 累积模式
# 显示列表的字段名称
PID # 进程PID
USER # 进程所属用户
PR # 优先级
NI # nice值。负值表示高优先级,正值表示低优先级
VIRT # 进程使用的虚拟内存总量,单位kb(VIRT=SWAP+RES)
RES # 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
SHR # 共享内存大小,单位kb
S # 进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
%CPU # 上次更新到现在的CPU时间占用百分比
%MEM # 进程使用的物理内存百分比
TIME+ # 进程使用的CPU时间总计,单位1/100秒
COMMAND # 命令名/命令行
# 交互命令
k # 终止一个进程
i # 忽略闲置和僵死进程,这是一个开关式命令
q # 退出程序
o或者O # 改变显示项目的顺序
l # 切换显示平均负载和启动时间信息
m # 切换显示内存信息
t # 切换显示进程和CPU状态信息
c # 切换显示命令名称和完整命令行
M # 根据驻留内存大小进行排序
P # 根据CPU使用百分比大小进行排序
T # 根据时间/累计时间进行排序
shell
# htop 一个互动的进程查看器,可以动态观察系统进程状况
# vmstat 显示虚拟内存状态
# slabtop 实时显示内核slab内存缓存信息
# free 显示内存的使用情况
# /proc/meminfo 查看内存信息
# sar 系统运行状态统计工具
# pidstat 监控进程的系统资源占用情况
# pidstat -u 默认的参数,显示各个进程的cpu使用统计
# pidstat -r 显示各个进程的内存使用统计
# pidstat -d 显示各个进程的IO使用情况
# pidstat -w 显示每个进程的上下文切换情况
# pidstat -t 显示到线程的统计信息
# pidstat -p 指定进程号
# ps 查看资源
ps axo pid,comm,pcpu # 查看进程的PID、名称以及CPU 占用率
ps aux | sort -rnk 4 # 按内存资源的使用量对进程进行排序
ps aux | sort -nk 3 # 按 CPU 资源的使用量对进程进行排序
ps -A # 显示所有进程信息
ps -u root # 显示指定用户信息
ps -efL # 查看线程数
ps -e -o "%C : %p :%z : %a" | sort -k5 -nr # 查看进程并按内存使用大小排列
ps -ef # 显示所有进程信息,连同命令行
ps -ef | grep ssh # ps 与grep 常用组合用法,查找特定进程
ps -C nginx # 通过名字或命令搜索进程
ps aux --sort=-pcpu,+pmem # CPU或者内存进行排序,-降序,+升序
ps -f --forest -C nginx # 用树的风格显示进程的层次关系
ps -o pid,uname,comm -C nginx # 显示一个父进程的子进程
ps -e -o pid,comm,etime # 显示进程运行的时间
ps -aux | grep named # 查看named进程详细信息
网络资源监测
shell
# ss 比 netstat 好用的socket统计信息
ss -t -a # 显示TCP连接
ss -s # 显示 Sockets 摘要
ss -l # 列出所有打开的网络连接端口
ss -pl # 查看进程使用的socket
ss -lp | grep 3306 # 找出打开套接字/端口应用程
ss src 192.168.119.103:90 # 匹配本地地址和端口号
ss dst 192.168.119.113:443 # 匹配远程地址和端口
# tcpdump 一款sniffer工具,是Linux上的抓包工具,嗅探器
# iptraf 实时地监视网卡流量
# netstat 查看Linux中网络系统状态信息
netstat -a # 列出所有端口
netstat -at # 列出所有tcp端口
netstat -au # 列出所有udp端口
netstat -l # 只显示监听端口
netstat -lt # 只列出所有监听 tcp 端口
netstat -lu # 只列出所有监听 udp 端口
netstat -lx # 只列出所有监听 UNIX 端口
netstat -s # 显示所有端口的统计信息
netstat -st # 显示TCP端口的统计信息
netstat -su # 显示UDP端口的统计信息
I/O资源监测
shell
iostat # 监视系统输入输出设备和CPU的使用情况
iotop # 用来监视磁盘I/O使用状况的工具
swapon -s # 显示交换区的使用状况
cat /proc/swaps # 查看资源交换区的使用情况
性能追踪工具
性能分析和诊断工具
shell
funccount # 其作用在于统计函数被调用的次数
funclatency # 获取函数的执行时延
kprobe # 为了便于跟踪内核函数执行状态所设计的一种轻量级内核调试技术
argdist # 工具用于探测指定的函数,并收集参数到一个直方图和频率计数器
trace # 用于跟踪系统调用和信号的工具。它可以帮助开发人员和系统管理员分析和调试程序的执行过程,以及定位和解决性能问题。
cachestat # 分析 Linux 系统缓存统计信息的工具。它可以提供关于文件系统缓存、页缓存和目录项缓存等方面的性能统计数据。
filetop # 用于监控文件系统I/O性能的工具
xt4slower # 用于检测ext4文件系统中慢速IO操作的工具
ext4dist # 用于测量ext4文件系统中的IO操作分布情况,可帮助分析IO负载的分布情况
mdflush # 用于跟踪并显示多磁盘阵列(MD)子系统中的刷新操作
opensnoop # 用于实时监测系统中打开文件的过程,可以用于跟踪具体进程打开文件的操作
statsnoop # 用于跟踪并显示系统调用的统计信息,可以帮助分析系统调用的使用情况
syncsnoop # 用于跟踪并显示文件系统同步操作的工具
ugc # 用于分析用户态指令执行的情况,可以显示用户态指令的使用情况和执行时间
ucalls # 用于捕获并显示用户态程序中的系统调用信息
tcptop # 用于监测和显示TCP连接的使用情况,例如连接数、数据传输量等
tcpfile # 用于跟踪和显示TCP文件操作的工具。
tcpconnect # 用于跟踪并显示TCP连接的建立操作。
tcpaccept # 用于跟踪并显示TCP连接的接受操作。
tcpconnlat # 用于测量TCP连接建立过程的延迟时间
tcpretrans # 用于跟踪并显示TCP重传的情况
gethostlatency # 用于测量主机名解析过程的延迟时间
biotop # 用于监测和显示IO操作的使用情况。
biosnoop # 用于跟踪并显示IO操作的详细信息。
biolatency # 用于测量IO操作的延迟时间。
bitesize # 用于统计和显示IO操作的大小分布情况。
hardirqs # 用于跟踪并显示硬中断的情况。
ttysnoop # 用于跟踪并显示终端输入输出的情况。
cpudist # 用于测量和显示CPU使用情况的工具。
execsnoop # 用于跟踪并显示进程执行的情况。
runlat # 用于测量和显示进程的运行延迟时间。
offcputime # 用于显示和分析进程的离线CPU时间。
memleak # 用于检测和分析内存泄漏问题。
oomkill # 用于跟踪和显示Out-of-Memory(内存不足)杀死进程的情况。
slabratetop # 用于监测和显示slab(内核内存分配器)使用情况。
llcstat # 用于跟踪和显示最后一级缓存(LLC)的使用情况。
profile # 用于生成进程的性能分析报告。
capable # 用于跟踪和显示进程权限检查的情况。
CPU性能监测
shell
uptime # 展示系统平均负载和系统运行时间
top # 按进程展示系统资源使用情况- 之前总结过
mpstat # 按每个 CPU 展示 CPU 使用情况
vmstat # 系统整体资源使用情况
pidstat # 按进程展示 CPU 使用情况
perf # 定时采样调用栈信息、事件统计、PMC 跟踪、跟踪点、USDT probes、kprobes 以及 uprobes 等
ftrace # 汇报内核函数调用统计、kprobes 和 uprobes 事件跟踪
execsnoo # 列出新进程的运行信息
exitsnoop # 列出进程运行时长和退出原因
runqlat # 统计 CPU 运行队列的延迟信息
runqlen # 统计 CPU 运行队列的长度
runqslower # 当运行队列中等待时长超过阈值时打印
cpudist # 统计在 CPU 上运行的时间
profile # 采样 CPU 运行的调用栈信息