Linux下性能分析的可视化图表工具

1 sar 和sadf

1.1 简介

sar命令可以记录系统下的常见活动信息,例如CPU使用率、网络统计数据、Block I/O数据、内存使用情况 等。

sar命令的"-o [file_name]"参数可以将系统活动数据记录到file_name文件,然后通过sadf来解析,sadf命令的"-g"参数可以生成各种图表。

下面1.2节,以cpu的utilization为例,演示如何通过sar 和 sadf生成图表。

1.2 CPU的utilization图表

1.2.1 采集数据

执行以下命令

bash 复制代码
sar -P ALL 1 -o tmp2

上面的脚本运行起来后,执行以下命令来产生一定的负载,使得系统负载数据产生波动,便于观察

bash 复制代码
perf bench sched pipe -T 4 -l 10000000

1.2.2 生成图表

执行以下命令,生成图表文件test2.svg。

bash 复制代码
sadf -T -O height=400 -g ./tmp2 -- -P 0 > test2.svg

然后用浏览器打开test2.svg。以下是一个8核CPU生成的图表。

2 cpuplayer(用来生成三元图)

2.1 简介

Performance Data Visualization of Multiprocessor Systems.

cpuplayer可以同时显示单个处理器核的%user、%sys 和 %idle。

cpuplayer可以解析的数据格式如下:

bash 复制代码
1263821686:3:8:47:45
1263821686:17:7:43:49
1263821686:2:9:44:47
1263821686:1:8:47:45
1263821686:18:8:42:50
1263821686:0:10:45:45
1263821686:16:7:45:48
1263821686:19:7:44:49

每一列的数据含义是:

  • timestamp: UNIX time

  • cpuid: the CPU id

  • User cpu percent utilization 0-100

  • System cpu percent utilization 0-100

  • Idle state cpu percent utilization 0-100

2.2 获取cpuplayer源码 和 编译

获取源码:git clone https://github.com/sparvu/cpuplayer.git

编译:安装源码目录的README.md文件里的说明进行编译。

2.3 生成图表

2.3.1 采集数据

bash 复制代码
export S_TIME_FORMAT=ISO   //使得mpstat输出的时间格式为hh:mm:ss,便于后面awk处理
mpstat -P ALL 1 > tmp
将tmp⽂件最后"平均时间"⼏⾏⼿动删除
awk 'NR>2&&$2!="CPU"&&$2!="all"&&NF>0 {print $1" "$2" "$3" "$5" "$12}' tmp > tmp2	//过滤⽆关的⾏并提取时间、核编号、%usr、%sys和%idle
awk 'gsub(/:/," ",$0){a=strftime("%Y %m %d"); b=a" "$1" "$2" "$3; c=mktime(b); print c":"$4":"$5":"$6":"$7}' tmp2 > trace.txt			//将时间转换为unix时间戳

2.3.2 生成图表

执行命令:./cpuplayer trace.txt

将会生成一个动态变化的画面,每秒变化一次,大致如下:

3 gnuplot

3.1 简介

gnuplot是一个非常强大的图表生成工具,可以生成各种图表,下面以网卡8个队列的中断计数为数据,演示如何在linux系统下生成折线图。

3.2 生成网卡8个队列中断计数增长的折线图

3.2.1 采集数据

从/proc/interrupts文件中采集数据

bash 复制代码
while true 
do
    cat /proc/interrupts | grep iwlwifi:queue_1 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_1.txt
    cat /proc/interrupts | grep iwlwifi:queue_2 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_2.txt
    cat /proc/interrupts | grep iwlwifi:queue_3 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_3.txt
    cat /proc/interrupts | grep iwlwifi:queue_4 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_4.txt

    cat /proc/interrupts | grep iwlwifi:queue_5 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_5.txt
    cat /proc/interrupts | grep iwlwifi:queue_6 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_6.txt
    cat /proc/interrupts | grep iwlwifi:queue_7 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_7.txt
    cat /proc/interrupts | grep iwlwifi:queue_8 | awk '{a=$2+$3+$4+$5+$6+$7+$8+$9;b=systime(); print b" "a}'  >> trace_irq_8.txt
    sleep 1
done

因为时间戳数据太大,图表中显示有问题,所以对时间戳进行处理,使得时间戳从0开始,便于图表中显示。1708659315是数据中最早的时间戳。

bash 复制代码
awk '{a=$1-1708659315; print a" "$2}' trace_irq_1.txt > irq_1.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_2.txt > irq_2.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_3.txt > irq_3.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_4.txt > irq_4.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_5.txt > irq_5.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_6.txt > irq_6.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_7.txt > irq_7.txt
awk '{a=$1-1708659315; print a" "$2}' trace_irq_8.txt > irq_8.txt

3.2.2 生成折线图

编写gnuplot脚本------irq.demo

bash 复制代码
set title 'irq count'
set ylabel 'count'
set xlabel 'second'
set grid
p "irq_1.txt" t "queue_1" lt 7 lc 0 w lp, \
      "irq_2.txt" t "queue_2" lt 7 lc 1 w lp, \
      "irq_3.txt" t "queue_3" lt 7 lc 2 w lp, \
      "irq_4.txt" t "queue_4" lt 7 lc 3 w lp, \
      "irq_5.txt" t "queue_5" lt 7 lc 4 w lp, \
      "irq_6.txt" t "queue_6" lt 7 lc 5 w lp, \
      "irq_7.txt" t "queue_7" lt 7 lc 6 w lp, \
      "irq_8.txt" t "queue_8" lt 7 lc 7 w lp

运行命令: gnuplot

在gnuplot命令行中加载 irq.demo

bash 复制代码
gnuplot> load "irq.demo"

生成折线图如下:

4 Heat Map

4.1 简介

Heat maps allow three dimensions of data to be visualized, similar to weather radar maps where color is used as a dimension. As data is quantized into buckets, they are practical for handling large datasets, such as performance monitoring metrics across thousands of servers.

4.2 生成热力图的脚本

git clone https://github.com/brendangregg/HeatMap.git

4.3 Latency Heat Maps

4.3.1 采集数据

使用perf-tools命令集中的iosnoop命令来获取Block I/O操作的延迟数据

bash 复制代码
./perf-tools/iosnoop -s > data
awk 'NR>2&&$1!=""&&$1!="Ending"{ print $1 " " $8}' data > trace2.txt

4.3.2 生成热力图

执行命令:./trace2heatmap.pl --unitstime=s --unitslabel=ms --grid trace2.txt > heatmap3.svg

生成热力图片如下:

4.4 Utilization Heat Map

4.4.1 采集数据

bash 复制代码
export S_TIME_FORMAT=ISO //让mpstat输出信息中的时间戳格式为hh:mm:ss
mpstat -P ALL 1 >tmp
vim tmp //将tmp⽂件最后"平均时间"⼏⾏⼿动删除
awk 'NR>2&&$2!="CPU"&&$2!="all"&&NF>0 {print $1" "$12}' tmp > tmp2 //过滤⽆关的⾏并提取时间和空闲率(%idle)信息,保存到tmp2
awk 'gsub(/:/," ",$0){a=strftime("%Y %m %d"); b=a" "$1" "$2" "$3; c=mktime(b); d=100-$4; print c" "d}' tmp2 > trace3.txt //将tmp2中的数据转换成
trace2heatmap.pl识别的格式

4.4.2 生成热力图

执行命令:./trace2heatmap.pl --unitstime=s --unitslabel="%util" --maxlat=100 --title="Utilization Heat Map" --grid trace3.txt > heatmap2.svg

4.5 FlameScope

该⼯具可以将性能分析结果展⽰为按秒聚合的热⼒图,以便可以按时间⽚段分析⽕焰图。

参考资料:

Heat Maps

Utilization Heat Maps

5 perf timechart

5.1 简介

perf-timechart - Tool to visualize total system behavior during a workload

5.2 生成图表

5.2.1 采集数据

编写测试程序,测试程序会周期性的运行1秒,然后睡眠1秒。

cpp 复制代码
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <time.h>

int main()
{
    int i = 0, j = 0, k = 0;
    time_t timestamp, timestamp_old = time(NULL);

    while(1){
        while(1){
            timestamp = time(NULL);
            if(timestamp_old+1 < timestamp){
                timestamp_old = timestamp;
                sleep(1);
            }
            else{
                for(j = 0; j < 1000000; j++)
                    k++;
            }
        }

        printf("%ld\n",timestamp);
        sleep(1);
    }
}

编译测试程序生成可执行文件a.out

采集数据,执行:perf timechart record ./a.out

运行一段时间后,Ctrl + c退出。

5.2.2 生成图表

执行命令:perf timechart -p 4200 //4200是a.out的pid

上面的命令会默认生成output.svg文件,用浏览器 或者 inkscape 打开此文件,生成的图表如下:

上面的图显示当前CPU的8个核基本处于空闲状态。

5.3 小技巧

上面图片里的某些任务运行时间很短,看上去只有很窄的一条细线,可以在inkscape软件中选中细线所在区域进行大比例放大。

5.4 遇到的问题

在繁忙的系统上,perf timechart record命令会采集到大量的数据(几秒就会产生上百兆),用这些数据生成的output.svg也很庞大,在用浏览器 或者 inkscape打开output.svg时,浏览器 和 inkscape 会直接卡死。

6 火焰图

网上资料很多。

相关推荐
叶北辰CHINA26 分钟前
nginx反向代理,负载均衡,HTTP配置简述(说人话)
linux·运维·nginx·http·云原生·https·负载均衡
不惑_42 分钟前
在 Ubuntu 安装 Python3.7(没有弯路)
linux·运维·ubuntu
theo.wu2 小时前
使用Buildpacks构建Docker镜像
运维·docker·容器
玉树临风江流儿2 小时前
Linux驱动开发(速记版)--设备模型
linux·驱动开发
杰哥在此2 小时前
Python知识点:如何使用Multiprocessing进行并行任务管理
linux·开发语言·python·面试·编程
枫叶丹44 小时前
【在Linux世界中追寻伟大的One Piece】进程信号
linux·运维·服务器
刻词梨木4 小时前
ubuntu中挂载点内存不足,分配不合理后使用软链接的注意事项
linux·运维·ubuntu
灯火不休ᝰ5 小时前
[win7] win7系统的下载及在虚拟机中详细安装过程(附有下载文件)
linux·运维·服务器
数云界8 小时前
如何在 DAX 中计算多个周期的移动平均线
java·服务器·前端
powerfulzyh9 小时前
Ubuntu24.04远程开机
linux·ubuntu·远程工作