Linux内核内存管理单元详解Linux 内核伙伴系统（Buddy System）的快速路径分配函数get_page_from_freelist

一、函数核心作用

get_page_from_freelist 是 Linux 内核伙伴系统（Buddy System）的快速路径分配函数，负责从指定的内存区域（Zone）中高效分配连续的物理内存页。其核心逻辑是遍历允许的 Zone 列表，检查水位线和分配条件，并调用 rmqueue 从伙伴系统的空闲链表中获取内存块。

二、关键执行流程

1. 遍历Zone列表

for_next_zone_zonelist_nodemask(zone, z, ac->highest_zoneidx, ac->nodemask)

Zone优先级：按 ac->preferred_zoneref 顺序遍历允许的 Zone（如 ZONE_NORMAL → ZONE_DMA32）。

NUMA节点限制：通过 ac->nodemask 过滤非允许的 NUMA 节点。

2. 分配条件检查

CPUSET约束（cpusets_enabled()）：若 Zone 不在当前进程允许的 CPU 集合内，跳过该 Zone。

脏页限制（ac->spread_dirty_pages）：

若 Zone 所在节点的脏页超过阈值（node_dirty_ok 失败），跳过以避免单节点脏页堆积。

碎片避免策略（no_fallback）：

若启用 ALLOC_NOFRAGMENT，优先从本地 NUMA 节点分配，若需跨节点则允许碎片化（alloc_flags &= ~ALLOC_NOFRAGMENT）。

3. 水位线检查

mark = wmark_pages(zone, alloc_flags & ALLOC_WMARK_MASK);

if (!zone_watermark_fast(zone, order, mark, ...))

水位线类型：根据 alloc_flags 选择低/中/高水位线（例如 ALLOC_WMARK_LOW）。

快速水位检查：zone_watermark_fast 快速判断 Zone 的空闲页是否足够：

若不足，可能触发异步回收（node_reclaim）或延迟页初始化（_deferred_grow_zone）。

4. 分配内存页

page = rmqueue(..., order, gfp_mask, ...);

if (page) {

prep_new_page(page, order, ...);

return page;

}

调用 rmqueue：从指定 Zone 的伙伴系统空闲链表中提取连续内存块。

页面预处理（prep_new_page）：

初始化页标志（PG_uptodate、PG_active 等）。

若启用 __GFP_ZERO，通过 post_alloc_hook 清零页面（参考搜索结果中的 get_zeroed_page 流程）。

三、关键机制解析

1. 内存碎片控制

ALLOC_NOFRAGMENT 标志：强制优先从本地节点分配，减少跨节点碎片化。

迁移类型回退：若首选迁移类型（如 MIGRATE_UNMOVABLE）无空闲块，尝试其他类型（如 MIGRATE_RECLAIMABLE）。

2. 水位线与内存回收

水位线触发行为条件操作

快速分配空闲页 ≥ 水位线直接分配

异步回收空闲页 < 水位线但允许回收触发 node_reclaim 回收非活跃页

延迟页初始化处理启用 CONFIG_DEFERRED_STRUCT_PAGE_INIT 调用 _deferred_grow_zone 初始化延迟页

3. 性能优化设计

本地节点优先：减少跨 NUMA 节点访问延迟。

快速路径剪枝：通过 zone_watermark_fast 快速过滤不满足条件的 Zone。

四、典型场景与代码路径

场景1：普通单页分配（order=0）

alloc_pages(GFP_KERNEL, 0);

路径：rmqueue → 从每 CPU 页缓存（PCP）直接分配，避免全局锁竞争。

场景2：高阶连续内存分配（order=5）

alloc_pages(GFP_HIGHUSER, 5);

路径：遍历 Zone 检查水位线 → 若失败触发 node_reclaim → 调用 rmqueue 分裂高阶块。

场景3：强制清零页面（__GFP_ZERO）

get_zeroed_page(GFP_KERNEL);

路径：prep_new_page → post_alloc_hook → kernel_init_free_pages 清零内存（参考搜索结果中的 get_zeroed_page 流程）。

五、与慢速路径的衔接

若 get_page_from_freelist 失败（返回 NULL），上层函数 __alloc_pages_nodemask 将进入慢速路径：

内存回收：调用 __perform_reclaim 回收页缓存或 Slab 内存。

内存压缩：通过 __alloc_pages_direct_compact 移动页面以合并大块内存。

OOM Killer：若仍无法分配，终止进程释放内存。

总结：get_page_from_freelist 是伙伴系统的快速分配核心，通过水位线检查、碎片控制和高阶块分裂机制，在理想情况下（内存充足、无碎片）高效分配连续物理页。其设计在保证性能的同时，与慢速路径协同处理低内存场景。

Linux内核内存管理单元 详解Linux 内核伙伴系统（Buddy System）的快速路径分配函数get_page_from_freelist