bpftrace原理与使用方法

Bpftrace

bpftrace是一种基于eBPF(Extended Berkeley Packet Filter)的跟踪工具,用于在Linux系统中进行动态跟踪和系统性能分析。理解bpftrace的概念、原理和使用方法有助于更好地使用和应用它。

概念和原理

  • eBPF(Extended Berkeley Packet Filter):eBPF是一种虚拟机技术,允许在内核中运行安全的、可编程的代码片段,以便对系统执行深入的跟踪和监视。eBPF提供了一种灵活且高效的方式来扩展内核的功能,并允许用户空间应用程序与内核交互。
  • bpftrace语言:bpftrace提供了一种高级脚本语言,使用类似于awk的语法,用于编写跟踪脚本。bpftrace脚本通过eBPF提供的虚拟机执行,可以捕获和分析各种系统事件和指标。
  • 动态加载和执行:bpftrace的一个关键特性是它可以在运行时动态加载和执行脚本,而无需重新编译内核或应用程序。这使得它非常适合于实时系统性能分析和故障排查。

bpftrace安装

根据你的Linux发行版和版本,使用包管理器(如apt、dnf、yum等)安装bpftrace(我使用的是Ubuntu):
sudo apt install bpftrace

bpftrace 语法结构

bpftrace 的语法结构是参考 awk 的。
probes /filter/ { action }

probes :事件,tracepoint, kprobe, kretprobe, uprobe。两个特殊事件BEGIN/END,用于脚本开始和结束处执行
filter :过滤条件,事件触发时,判断条件,例如:/pid == 3245/,表示 pid为 3245 的进程执行。
action :具体执行的操作,例如:{ printf("close\n");} 打印 close

probes

案例:

bpftrace -e 'BEGIN { printf("hello\n"); }'
bpftrace -e 'tracepoint:syscalls:sys_enter_accept { printf("accept\n"); }'
bpftrace -e 'tracepoint:syscalls:sys_enter_accept4 { printf("accept4\n"); }'
bpftrace -e 'tracepoint:syscalls:sys_enter_connect { printf("connect\n"); }'
bpftrace -e 'tracepoint:syscalls:sys_enter_read { printf("read\n"); }'
bpftrace -e 'tracepoint:syscalls:sys_enter_write { printf("write\n"); }'
bpftrace -e 'tracepoint:syscalls:sys_enter_close { printf("close\n"); }'

bpftrace 变量

内置变量

bpftrace 脚本常用变量如下:

uid:用户 id。
tid:线程 id
pid:进程 id。
cpu:cpu id。
cgroup:cgroup id.
probe:当前的 trace 点。
comm:进程名字。
nsecs:纳秒级别的时间戳。
kstack:内核栈描述
curtask:当前进程的 task_struct 地址。
args:获取该 kprobe 或者 tracepoint 的参数列表
arg0:获取该 kprobe 的第一个变量,tracepoint 不可用
arg1:获取该 kprobe 的第二个变量,tracepoint 不可用
arg2:获取该 kprobe 的第三个变量,tracepoint 不可用
retval: kretprobe 中获取函数返回值
args->ret: kretprobe 中获取函数返回值

自定义变量

以'$'标志起来定义与引用变量,例如:$idx = 0;

Map变量

Map 变量是用于内核向用户空间传递数据的一种存储结构,定义方式是以'@'符
号作为标志
@path[tid] = nsecs;
@path[pid, $fd] = nsecs;
Bpftrace 默认在结束时会打印从内核接收到的 map 变量

内置函数

exit():退出 bpftrace 程序
str(char *):转换一个指针到 string 类型
system(format[, arguments ...]):运行一个 shell 命令
join(char *str[]):打印一个字符串列表并在每个前面加上空格,比如可以用
来输出 args->argv
ksym(addr):用于转换一个地址到内核 symbol
kaddr(char *name):通过 symbol 转换为内核地址
print(@m [, top [, div]]):可选择参数打印 map 中的 top n 个数据,数
据可选择除以一个 div 值

bpftrace 内置了 map 对象操作函数,用于传递数据给 map 变量

count():用于计算次数
sum(int n):用于累加计算
avg(int n):用于计算平均值
min(int n):用于计算最小值
max(int n):用于计算最大值
hist(int n):数据分布直方图(范围为 2 的幂次增长)
lhist(int n):数据线性直方图
delete(@m[key]):删除 map 中的对应的 key 数据
clear(@m):删除 map 中的所有数据
zero(@m):map 中的所有值设置为 0

Bpftrace操作案例

注意 :由于bpftrace需要访问内核资源,因此通常需要以超级用户(sudo)权限运行。

文件系统

统计调用 read 的次数:
bpftrace -e 't:syscalls:sys_enter_read {@[probe]=count(); }'

跟踪系统调用"read"的使用情况,并创建一个直方图来显示"read"系统调用的参数"count"的分布情况:
bpftrace -e 't:syscalls:sys_enter_read {@=hist(args->count);}'

跟踪系统调用"openat"的使用情况,并打印出调用该系统调用的进程名和打开的文件名:
bpftrace -e 't:syscalls:sys_enter_openat { printf("%s--> %s\n",comm,str(args->filename)); }'

通过脚本文件执行:
vim vfs.bt

#include <linux/fs.h>
#include <linux/path.h>
#include <linux/dcache.h>

kprobe:vfs_open 
/ comm == "cat"/ 
{ 
	printf("vfs_open: %s, name: %s\n", comm, str(((struct path*)arg0)->dentry->d_name.name)); 
}


kprobe:vfs_write
/ comm == "cat"/
{
	$file = str(((struct file*)arg0)->f_path.dentry->d_name.name);
	printf("vfs_write: %s, count: %d, buf:%s\n", $file, arg2, str(arg1));
}

执行:bpftrace vfs.bt

磁盘

统计阻塞 io 事件:
bpftrace -e 't:block:* { @[probe] = count(); }'

统计 阻塞 io 操作数据大小:
bpftrace -e 't:block:block_rq_issue { @bytes = hist(args->bytes); }'

进程

启动的进程名与命令行参数:
bpftrace -e 'tracepoint:syscalls:sys_enter_execve { join(args->argv); }'

进程调度:
bpftrace -e 'tracepoint:sched:sched_switch { @[kstack] = count(); }'

内存

内核内存栈
bpftrace -e 't:kmem:kmem_cache_alloc { @bytes[kstack] = sum(args->bytes_alloc); }'

Malloc 调用统计:
bpftrace -e 'u:/lib/x86_64-linux-gnu/libc.so.6:malloc {@[ustack, comm] = sum(arg0); }'

相关推荐
成都古河云36 分钟前
智慧场馆:安全、节能与智能化管理的未来
大数据·运维·人工智能·安全·智慧城市
算法与编程之美38 分钟前
文件的写入与读取
linux·运维·服务器
xianwu5431 小时前
反向代理模块
linux·开发语言·网络·git
Amelio_Ming1 小时前
Permissions 0755 for ‘/etc/ssh/ssh_host_rsa_key‘ are too open.问题解决
linux·运维·ssh
心灵彼岸-诗和远方1 小时前
Devops业务价值流:软件研发最佳实践
运维·产品经理·devops
JuiceFS2 小时前
好未来:多云环境下基于 JuiceFS 建设低运维模型仓库
运维·云原生
Ven%2 小时前
centos查看硬盘资源使用情况命令大全
linux·运维·centos
萨格拉斯救世主3 小时前
戴尔R930服务器增加 Intel X710-DA2双万兆光口含模块
运维·服务器
Jtti3 小时前
Windows系统服务器怎么设置远程连接?详细步骤
运维·服务器·windows
TeYiToKu3 小时前
笔记整理—linux驱动开发部分(9)framebuffer驱动框架
linux·c语言·arm开发·驱动开发·笔记·嵌入式硬件·arm