深入理解 Linux NUMA：拓扑、分配策略与调优实践

NUMA（Non-Uniform Memory Access，非一致性内存访问）把系统内存按"节点（node）"分组，每个节点有本地内存与若干 CPU。访问本地内存延迟低、带宽高；跨节点访问（remote）延迟更高、带宽更低。Linux 的总体目标是：

这通过"节点优先 + 策略驱动回退 + 自动均衡纠偏"的组合实现。

pg_data_t（节点）
- 维护该节点上的内存域、统计信息、回退关系等。
struct zone（域）
- 由伙伴分配器（Buddy）管理不同阶（order）的空闲页块；包含水位与统计。
struct per_cpu_pages / struct per_cpu_pageset
- 字段要点：count（当前缓存页数）、high（高水位）、batch（一次回填/回收批量）、lists[MIGRATE_PCPTYPES]（按迁移类型分组的单页链表）。
- 每 CPU 每 Zone 维护一份，分配与释放的 order=0 快速路径依赖它。

高层入口：alloc_pages() → __alloc_pages_nodemask() → get_page_from_freelist()。
快速路径（order=0）：
- mm/page_alloc.c: buffered_rmqueue() 优先从当前 CPU 的目标 Zone 的 per-CPU 缓存取页。
- 若缓存为空，rmqueue_bulk() 在一次锁持有期内从伙伴系统批量取页，回填到 per-CPU 缓存后再返回。
回退机制：
- 若本地节点无法满足（高阶或水位不足），沿 zonelist 逐级回退到其他 Zone / 节点。
- NUMA 策略会影响首选节点与回退顺序（详见下一节）。

该设计减少热点锁竞争，强化"就近分配"，同时在资源紧张时平滑回退。

释放单页（order=0）快速路径：mm/page_alloc.c: free_hot_cold_page()。
- 将页按迁移类型挂入 pcp->lists；pcp->count 超过 pcp->high 时触发溢出回收。
溢出回收：free_pcppages_bulk()
- 按批量与迁移类型，批量把缓存页归还伙伴系统（__free_one_page）。
主动回收：drain_zone_pages() / drain_pages() / drain_local_pages() / drain_all_pages()
- 在负载切换、内存压力或 NUMA 策略变更时，可主动清空 per-CPU 缓存，减少跨 CPU/节点的"旧页"滞留。

应用可通过系统调用或工具设置策略，影响节点选择与回退：

接口与实现：

系统调用：set_mempolicy()、mbind()、get_mempolicy()（mm/mempolicy.c）。
工具示例：
- numactl --hardware（查看拓扑）
- numactl --preferred=0 ./app（优先节点 0）
- numactl --interleave=all ./app（跨节点交织分配）
- numactl --membind=1,2 ./app（仅在节点 1/2 分配）

当开启 kernel.numa_balancing=1 且内核配置 CONFIG_NUMA_BALANCING 时：

机制概览：
- 内核周期性采样页访问（结合缺页/访问模式），识别"错置页"（远端频繁访问的页）。
- 通过 migrate_pages()（mm/migrate.c）把页迁往访问最频繁的节点，使线程与数据同节点。
关键路径：
- 参考 mm/numa.c 与 do_numa_page() 相关逻辑（在 4.4 系列中分布于内存子系统）。
注意事项：
- 适合通用场景；对强绑定（MPOL_BIND）或极端局部性场景可能需要关闭或调参。

THP（Transparent Huge Page）在 NUMA 上仍遵循"本地优先"。
高阶（order>0）分配失败时可能更早触发回退；可结合 numactl 与 THP 参数调优。
- 检查：/sys/kernel/mm/transparent_hugepage/enabled

拓扑与负载：
- lscpu --extended=CPU,NODE（CPU-节点映射）
- numactl --hardware（节点与内存大小）
- numastat（用户态工具，统计各节点分配/访问；参见 Documentation/numastat.txt）
进程视角：
- /proc/<pid>/numa_maps（各 VMA 的节点分布与策略）
- cat /proc/self/numa_maps（自查）
性能热点：
- perf mem、perf stat -e numa_*（采样远端访问）
- hwloc-ls / lstopo（可视化硬件拓扑）

每个 Zone 属于一个 Node，伙伴分配器在 Zone 内管理空闲块；per-CPU pageset 则为单页分配/释放提供近路。
结果：单页分配在 NUMA 上更易"本地命中"；但当本地资源不足或策略要求时，仍会回退到其他节点。
关键函数：
- 分配：buffered_rmqueue()、rmqueue_bulk()（mm/page_alloc.c）
- 释放：free_hot_cold_page()、free_pcppages_bulk()（mm/page_alloc.c）
- 结构定义：per_cpu_pages、per_cpu_pageset（include/linux/mmzone.h）

------ 完 ------