Linux内核内存管理单元 详解Linux 内核伙伴系统(Buddy System)的快速路径分配函数get_page_from_freelist

一、函数核心作用

get_page_from_freelist 是 Linux 内核伙伴系统(Buddy System)的快速路径分配函数,负责从指定的内存区域(Zone)中高效分配连续的物理内存页。其核心逻辑是遍历允许的 Zone 列表,检查水位线和分配条件,并调用 rmqueue 从伙伴系统的空闲链表中获取内存块。

二、关键执行流程

1. 遍历Zone列表

for_next_zone_zonelist_nodemask(zone, z, ac->highest_zoneidx, ac->nodemask)

Zone优先级:按 ac->preferred_zoneref 顺序遍历允许的 Zone(如 ZONE_NORMAL → ZONE_DMA32)。

NUMA节点限制:通过 ac->nodemask 过滤非允许的 NUMA 节点。

2. 分配条件检查

CPUSET约束(cpusets_enabled()):若 Zone 不在当前进程允许的 CPU 集合内,跳过该 Zone。

脏页限制(ac->spread_dirty_pages):

若 Zone 所在节点的脏页超过阈值(node_dirty_ok 失败),跳过以避免单节点脏页堆积。

碎片避免策略(no_fallback):

若启用 ALLOC_NOFRAGMENT,优先从本地 NUMA 节点分配,若需跨节点则允许碎片化(alloc_flags &= ~ALLOC_NOFRAGMENT)。

3. 水位线检查

mark = wmark_pages(zone, alloc_flags & ALLOC_WMARK_MASK);

if (!zone_watermark_fast(zone, order, mark, ...))

水位线类型:根据 alloc_flags 选择低/中/高水位线(例如 ALLOC_WMARK_LOW)。

快速水位检查:zone_watermark_fast 快速判断 Zone 的空闲页是否足够:

若不足,可能触发异步回收(node_reclaim)或延迟页初始化(_deferred_grow_zone)。

4. 分配内存页

page = rmqueue(..., order, gfp_mask, ...);

if (page) {

prep_new_page(page, order, ...);

return page;

}

调用 rmqueue:从指定 Zone 的伙伴系统空闲链表中提取连续内存块。

页面预处理(prep_new_page):

初始化页标志(PG_uptodate、PG_active 等)。

若启用 __GFP_ZERO,通过 post_alloc_hook 清零页面(参考搜索结果中的 get_zeroed_page 流程)。

三、关键机制解析

1. 内存碎片控制

ALLOC_NOFRAGMENT 标志:强制优先从本地节点分配,减少跨节点碎片化。

迁移类型回退:若首选迁移类型(如 MIGRATE_UNMOVABLE)无空闲块,尝试其他类型(如 MIGRATE_RECLAIMABLE)。

2. 水位线与内存回收

水位线触发行为 条件 操作

快速分配 空闲页 ≥ 水位线 直接分配

异步回收 空闲页 < 水位线但允许回收 触发 node_reclaim 回收非活跃页

延迟页初始化处理 启用 CONFIG_DEFERRED_STRUCT_PAGE_INIT 调用 _deferred_grow_zone 初始化延迟页

3. 性能优化设计

本地节点优先:减少跨 NUMA 节点访问延迟。

快速路径剪枝:通过 zone_watermark_fast 快速过滤不满足条件的 Zone。

四、典型场景与代码路径

场景1:普通单页分配(order=0)

alloc_pages(GFP_KERNEL, 0);

路径:rmqueue → 从每 CPU 页缓存(PCP)直接分配,避免全局锁竞争。

场景2:高阶连续内存分配(order=5)

alloc_pages(GFP_HIGHUSER, 5);

路径:遍历 Zone 检查水位线 → 若失败触发 node_reclaim → 调用 rmqueue 分裂高阶块。

场景3:强制清零页面(__GFP_ZERO)

get_zeroed_page(GFP_KERNEL);

路径:prep_new_page → post_alloc_hook → kernel_init_free_pages 清零内存(参考搜索结果中的 get_zeroed_page 流程)。

五、与慢速路径的衔接

若 get_page_from_freelist 失败(返回 NULL),上层函数 __alloc_pages_nodemask 将进入慢速路径:

内存回收:调用 __perform_reclaim 回收页缓存或 Slab 内存。

内存压缩:通过 __alloc_pages_direct_compact 移动页面以合并大块内存。

OOM Killer:若仍无法分配,终止进程释放内存。

总结:get_page_from_freelist 是伙伴系统的快速分配核心,通过水位线检查、碎片控制和高阶块分裂机制,在理想情况下(内存充足、无碎片)高效分配连续物理页。其设计在保证性能的同时,与慢速路径协同处理低内存场景。

相关推荐
不知几秋2 小时前
数字取证-内存取证(volatility)
java·linux·前端
欧先生^_^5 小时前
Linux内核可配置的参数
linux·服务器·数据库
海尔辛5 小时前
学习黑客5 分钟读懂Linux Permissions 101
linux·学习·安全
王RuaRua6 小时前
[数据结构]5. 栈-Stack
linux·数据结构·数据库·链表
曼岛_7 小时前
[架构之美]linux常见故障问题解决方案(十九)
linux·运维·架构
tan180°7 小时前
Linux进程信号处理(26)
linux·c++·vscode·后端·信号处理
大神的风范7 小时前
从0开始学linux韦东山教程第三章问题小结(4)
linux·服务器
sz66cm7 小时前
Linux基础 -- SSH 流式烧录与压缩传输笔记
linux·笔记·ssh
YOYO--小天8 小时前
RS485和RS232 通信配置
linux·嵌入式硬件
Lw老王要学习8 小时前
Linux数据库篇、第一章_02_MySQL的使用增删改查
linux·运维·数据库·mysql·云计算·it