tcpdump_BPF - 技术栈

为什么要发明 BPF？（一句话历史）

早年抓包工具（比如 tcpdump 前身）用的是：

把所有包全部拷贝到用户态
再在用户态慢慢过滤

缺点：

极慢
占 CPU
高流量下直接卡死

Berkeley 这群人就想：能不能在内核里提前过滤，只把符合条件的包传给用户？

于是设计了：

在内核里跑一个极简虚拟机
执行一小段过滤指令
只把符合条件的包拷贝到用户态

这就是 BPF 的诞生。

tcpdump 用户态代码 → el0_svc（内核入口）→ __arm64_sys_setsockopt → ├─ packet_setsockopt（packet 套接字设置）→ packet_set_ring → 内存分配（__get_free_pages/clear_page） └─ sock_setsockopt → sk_attach_filter（BPF 过滤规则）→ bpf_prog_alloc → 虚拟内存分配（__vmalloc/alloc_vmap_area）

以太网帧头（14字节） ├─ 目的MAC（6字节） ├─ 源MAC（6字节） └─ 以太网类型（2字节，第12-13字节）→ 对应指令0的 $12$ IP头（至少20字节） ├─ 版本+头长度（1字节，第20字节）→ 对应指令4的 $20$ ├─ 服务类型（1字节） ├─ 总长度（2字节） ├─ 标识（2字节） ├─ 标志+片偏移（2字节） ├─ 生存时间（1字节） ├─ 协议类型（1字节，第23字节）→ 对应指令2的 $23$ ├─ 校验和（2字节） ├─ 源IP（4字节） ├─ 目的IP（4字节） └─ 可选字段（0-40字节） TCP头（至少20字节） ├─ 源端口（2字节） ├─ 目的端口（2字节）→ 对应指令7的 $x + 2$ └─ ...（其他字段）

root@NYX:/# tcpdump tcp dst port 80 -d

(000) ldh $12$ // 读取以太网帧头部的类型字段（偏移12）

(001) jeq #0x86dd // 判断是否是 IPv6 (0x86dd)，是则跳2，否则跳6

(002) ldb $20$ // IPv6：读取下一层协议字段（偏移20）

(003) jeq #0x6 // 判断是否是 TCP (0x6)，是则跳4，否则跳15

(004) ldh $56$ // IPv6：读取目的端口（偏移56）

(005) jeq #0x50 // 判断是否是 80 端口（0x50），是则跳14，否则跳15

(006) jeq #0x800 // 判断是否是 IPv4 (0x800)，是则跳7，否则跳15

(007) ldb $23$ // IPv4：读取协议字段（偏移23）

(008) jeq #0x6 // 判断是否是 TCP (0x6)，是则跳9，否则跳15

(009) ldh $20$ // IPv4：读取IP头部长度（偏移20）

(010) jset #0x1fff // 校验IP头部长度合法性，非法则跳15

(011) ldxb 4*( $14$ &0xf)// 计算TCP头部偏移

(012) ldh $x + 16$ // 读取TCP目的端口

(013) jeq #0x50 // 判断是否是 80 端口，是则跳14，否则跳15

(014) ret #262144 // 匹配成功：返回最大抓包长度（抓取该包）

(015) ret #0 // 匹配失败：返回0（丢弃该包）