为什么要发明 BPF?(一句话历史)
早年抓包工具(比如 tcpdump 前身)用的是:
- 把所有包全部拷贝到用户态
- 再在用户态慢慢过滤
缺点:
- 极慢
- 占 CPU
- 高流量下直接卡死
Berkeley 这群人就想:能不能在内核里提前过滤,只把符合条件的包传给用户?
于是设计了:
- 在内核里跑一个极简虚拟机
- 执行一小段过滤指令
- 只把符合条件的包拷贝到用户态
这就是 BPF 的诞生。
tcpdump 用户态代码 → el0_svc(内核入口)→ __arm64_sys_setsockopt → ├─ packet_setsockopt(packet 套接字设置)→ packet_set_ring → 内存分配(__get_free_pages/clear_page) └─ sock_setsockopt → sk_attach_filter(BPF 过滤规则)→ bpf_prog_alloc → 虚拟内存分配(__vmalloc/alloc_vmap_area)
以太网帧头(14字节) ├─ 目的MAC(6字节) ├─ 源MAC(6字节) └─ 以太网类型(2字节,第12-13字节)→ 对应指令0的 [12] IP头(至少20字节) ├─ 版本+头长度(1字节,第20字节)→ 对应指令4的 [20] ├─ 服务类型(1字节) ├─ 总长度(2字节) ├─ 标识(2字节) ├─ 标志+片偏移(2字节) ├─ 生存时间(1字节) ├─ 协议类型(1字节,第23字节)→ 对应指令2的 [23] ├─ 校验和(2字节) ├─ 源IP(4字节) ├─ 目的IP(4字节) └─ 可选字段(0-40字节) TCP头(至少20字节) ├─ 源端口(2字节) ├─ 目的端口(2字节)→ 对应指令7的 [x + 2] └─ ...(其他字段)
root@NYX:/# tcpdump tcp dst port 80 -d
(000) ldh [12] // 读取以太网帧头部的类型字段(偏移12)
(001) jeq #0x86dd // 判断是否是 IPv6 (0x86dd),是则跳2,否则跳6
(002) ldb [20] // IPv6:读取下一层协议字段(偏移20)
(003) jeq #0x6 // 判断是否是 TCP (0x6),是则跳4,否则跳15
(004) ldh [56] // IPv6:读取目的端口(偏移56)
(005) jeq #0x50 // 判断是否是 80 端口(0x50),是则跳14,否则跳15
(006) jeq #0x800 // 判断是否是 IPv4 (0x800),是则跳7,否则跳15
(007) ldb [23] // IPv4:读取协议字段(偏移23)
(008) jeq #0x6 // 判断是否是 TCP (0x6),是则跳9,否则跳15
(009) ldh [20] // IPv4:读取IP头部长度(偏移20)
(010) jset #0x1fff // 校验IP头部长度合法性,非法则跳15
(011) ldxb 4*([14]&0xf)// 计算TCP头部偏移
(012) ldh [x + 16] // 读取TCP目的端口
(013) jeq #0x50 // 判断是否是 80 端口,是则跳14,否则跳15
(014) ret #262144 // 匹配成功:返回最大抓包长度(抓取该包)
(015) ret #0 // 匹配失败:返回0(丢弃该包)