Linux下性能分析的可视化图表工具

1 sar 和sadf

1.1 简介

sar命令可以记录系统下的常见活动信息,例如CPU使用率、网络统计数据、Block I/O数据、内存使用情况 等。

sar命令的"-o [file_name]"参数可以将系统活动数据记录到file_name文件,然后通过sadf来解析,sadf命令的"-g"参数可以生成各种图表。

下面1.2节,以cpu的utilization为例,演示如何通过sar 和 sadf生成图表。

1.2 CPU的utilization图表

1.2.1 采集数据

执行以下命令

bash 复制代码
sar -P ALL 1 -o tmp2

上面的脚本运行起来后,执行以下命令来产生一定的负载,使得系统负载数据产生波动,便于观察

bash 复制代码
perf bench sched pipe -T 4 -l 10000000

1.2.2 生成图表

执行以下命令,生成图表文件test2.svg。

bash 复制代码
sadf -T -O height=400 -g ./tmp2 -- -P 0 > test2.svg

然后用浏览器打开test2.svg。以下是一个8核CPU生成的图表。

2 cpuplayer(用来生成三元图)

2.1 简介

Performance Data Visualization of Multiprocessor Systems.

cpuplayer可以同时显示单个处理器核的%user、%sys 和 %idle。

cpuplayer可以解析的数据格式如下:

bash 复制代码
1263821686:3:8:47:45
1263821686:17:7:43:49
1263821686:2:9:44:47
1263821686:1:8:47:45
1263821686:18:8:42:50
1263821686:0:10:45:45
1263821686:16:7:45:48
1263821686:19:7:44:49

每一列的数据含义是:

  • timestamp: UNIX time

  • cpuid: the CPU id

  • User cpu percent utilization 0-100

  • System cpu percent utilization 0-100

  • Idle state cpu percent utilization 0-100

2.2 获取cpuplayer源码 和 编译

获取源码:git clone https://github.com/sparvu/cpuplayer.git

编译:安装源码目录的README.md文件里的说明进行编译。

2.3 生成图表

2.3.1 采集数据

bash 复制代码
export S_TIME_FORMAT=ISO   //使得mpstat输出的时间格式为hh:mm:ss,便于后面awk处理
mpstat -P ALL 1 > tmp
将tmp⽂件最后"平均时间"⼏⾏⼿动删除
awk 'NR>2&&$2!="CPU"&&$2!="all"&&NF>0 {print $1" "$2" "$3" "$5" "$12}' tmp > tmp2	//过滤⽆关的⾏并提取时间、核编号、%usr、%sys和%idle
awk 'gsub(/:/," ",$0){a=strftime("%Y %m %d"); b=a" "$1" "$2" "$3; c=mktime(b); print c":"$4":"$5":"$6":"$7}' tmp2 > trace.txt			//将时间转换为unix时间戳

2.3.2 生成图表

执行命令:./cpuplayer trace.txt

将会生成一个动态变化的画面,每秒变化一次,大致如下:

3 gnuplot

3.1 简介

gnuplot是一个非常强大的图表生成工具,可以生成各种图表,下面以网卡8个队列的中断计数为数据,演示如何在linux系统下生成折线图。

3.2 生成网卡8个队列中断计数增长的折线图

3.2.1 采集数据

从/proc/interrupts文件中采集数据

bash 复制代码
while true 
do
    cat /proc/interrupts | grep iwlwifi:queue_1 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_1.txt
    cat /proc/interrupts | grep iwlwifi:queue_2 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_2.txt
    cat /proc/interrupts | grep iwlwifi:queue_3 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_3.txt
    cat /proc/interrupts | grep iwlwifi:queue_4 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_4.txt

    cat /proc/interrupts | grep iwlwifi:queue_5 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_5.txt
    cat /proc/interrupts | grep iwlwifi:queue_6 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_6.txt
    cat /proc/interrupts | grep iwlwifi:queue_7 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_7.txt
    cat /proc/interrupts | grep iwlwifi:queue_8 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_8.txt
    sleep 1
done

因为时间戳数据太大,图表中显示有问题,所以对时间戳进行处理,使得时间戳从0开始,便于图表中显示。1708659315是数据中最早的时间戳。

bash 复制代码
awk '{a=$1-1708659315; print a" "$2}' trace_irq_1.txt > irq_1.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_2.txt > irq_2.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_3.txt > irq_3.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_4.txt > irq_4.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_5.txt > irq_5.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_6.txt > irq_6.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_7.txt > irq_7.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_8.txt > irq_8.txt

3.2.2 生成折线图

编写gnuplot脚本------irq.demo

bash 复制代码
set title 'irq count'
set ylabel 'count'
set xlabel 'second'
set grid
p "irq_1.txt" t "queue_1" lt 7 lc 0 w lp, \
      "irq_2.txt" t "queue_2" lt 7 lc 1 w lp, \
      "irq_3.txt" t "queue_3" lt 7 lc 2 w lp, \
      "irq_4.txt" t "queue_4" lt 7 lc 3 w lp, \
      "irq_5.txt" t "queue_5" lt 7 lc 4 w lp, \
      "irq_6.txt" t "queue_6" lt 7 lc 5 w lp, \
      "irq_7.txt" t "queue_7" lt 7 lc 6 w lp, \
      "irq_8.txt" t "queue_8" lt 7 lc 7 w lp

运行命令: gnuplot

在gnuplot命令行中加载 irq.demo

bash 复制代码
gnuplot> load "irq.demo"

生成折线图如下:

4 Heat Map

4.1 简介

Heat maps allow three dimensions of data to be visualized, similar to weather radar maps where color is used as a dimension. As data is quantized into buckets, they are practical for handling large datasets, such as performance monitoring metrics across thousands of servers.

4.2 生成热力图的脚本

git clone https://github.com/brendangregg/HeatMap.git

4.3 Latency Heat Maps

4.3.1 采集数据

使用perf-tools命令集中的iosnoop命令来获取Block I/O操作的延迟数据

bash 复制代码
./perf-tools/iosnoop -s > data
awk 'NR>2&&$1!=""&&$1!="Ending"{ print $1 " " $8}' data > trace2.txt

4.3.2 生成热力图

执行命令:./trace2heatmap.pl --unitstime=s --unitslabel=ms --grid trace2.txt > heatmap3.svg

生成热力图片如下:

4.4 Utilization Heat Map

4.4.1 采集数据

bash 复制代码
export S_TIME_FORMAT=ISO //让mpstat输出信息中的时间戳格式为hh:mm:ss
mpstat -P ALL 1 >tmp
vim tmp //将tmp⽂件最后"平均时间"⼏⾏⼿动删除
awk 'NR>2&&$2!="CPU"&&$2!="all"&&NF>0 {print $1" "$12}' tmp > tmp2 //过滤⽆关的⾏并提取时间和空闲率(%idle)信息,保存到tmp2
awk 'gsub(/:/," ",$0){a=strftime("%Y %m %d"); b=a" "$1" "$2" "$3; c=mktime(b); d=100-$4; print c" "d}' tmp2 > trace3.txt //将tmp2中的数据转换成
trace2heatmap.pl识别的格式

4.4.2 生成热力图

执行命令:./trace2heatmap.pl --unitstime=s --unitslabel="%util" --maxlat=100 --title="Utilization Heat Map" --grid trace3.txt > heatmap2.svg

4.5 FlameScope

该⼯具可以将性能分析结果展⽰为按秒聚合的热⼒图,以便可以按时间⽚段分析⽕焰图。

参考资料:

Heat Maps

Utilization Heat Maps

5 perf timechart

5.1 简介

perf-timechart - Tool to visualize total system behavior during a workload

5.2 生成图表

5.2.1 采集数据

编写测试程序,测试程序会周期性的运行1秒,然后睡眠1秒。

cpp 复制代码
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <time.h>

int main()
{
    int i = 0, j = 0, k = 0;
    time_t timestamp, timestamp_old = time(NULL);

    while(1){
        while(1){
            timestamp = time(NULL);
            if(timestamp_old+1 < timestamp){
                timestamp_old = timestamp;
                sleep(1);
            }
            else{
                for(j = 0; j < 1000000; j++)
                    k++;
            }
        }

        printf("%ld\n",timestamp);
        sleep(1);
    }
}

编译测试程序生成可执行文件a.out

采集数据,执行:perf timechart record ./a.out

运行一段时间后,Ctrl + c退出。

5.2.2 生成图表

执行命令:perf timechart -p 4200 //4200是a.out的pid

上面的命令会默认生成output.svg文件,用浏览器 或者 inkscape 打开此文件,生成的图表如下:

上面的图显示当前CPU的8个核基本处于空闲状态。

5.3 小技巧

上面图片里的某些任务运行时间很短,看上去只有很窄的一条细线,可以在inkscape软件中选中细线所在区域进行大比例放大。

5.4 遇到的问题

在繁忙的系统上,perf timechart record命令会采集到大量的数据(几秒就会产生上百兆),用这些数据生成的output.svg也很庞大,在用浏览器 或者 inkscape打开output.svg时,浏览器 和 inkscape 会直接卡死。

6 火焰图

网上资料很多。

相关推荐
feichang_notlike31 小时前
Windows (WSL2) 搭建 openclaw
运维
❀͜͡傀儡师1 小时前
Spring Boot Pf4j模块化能力设计思考
运维·spring boot·后端·pf4j
筱白爱学习2 小时前
RestHighLevelClient详细使用手册
linux·服务器·php
若谷老师2 小时前
21.WSL中部署gnina分子对接程序ds
linux·人工智能·ubuntu·卷积神经网络·gnina·smina
石油人单挑所有2 小时前
ProtoBuf编写网络版本通讯录时遇到问题及解决方案
运维·服务器
Andy3 小时前
分流设备的测试报告
运维·服务器
Mr.小海3 小时前
Docker 容器间依赖管理
运维·docker·容器
zhojiew3 小时前
编写xds服务并实现envoy服务的动态配置
运维
枷锁—sha3 小时前
【CTFshow-pwn系列】03_栈溢出【pwn 045】详解:Ret2Libc 之 32位动态泄露(补充本地 Libc 手动加载指南)
服务器·网络·网络安全·系统安全
啊辉的科研4 小时前
植物单细胞RNA-seq分析教程3-2025年版
linux·r语言