Linux内核内存管理单元 详解Linux 内核伙伴系统(Buddy System)的快速路径分配函数get_page_from_freelist

一、函数核心作用

get_page_from_freelist 是 Linux 内核伙伴系统(Buddy System)的快速路径分配函数,负责从指定的内存区域(Zone)中高效分配连续的物理内存页。其核心逻辑是遍历允许的 Zone 列表,检查水位线和分配条件,并调用 rmqueue 从伙伴系统的空闲链表中获取内存块。

二、关键执行流程

1. 遍历Zone列表

for_next_zone_zonelist_nodemask(zone, z, ac->highest_zoneidx, ac->nodemask)

Zone优先级:按 ac->preferred_zoneref 顺序遍历允许的 Zone(如 ZONE_NORMAL → ZONE_DMA32)。

NUMA节点限制:通过 ac->nodemask 过滤非允许的 NUMA 节点。

2. 分配条件检查

CPUSET约束(cpusets_enabled()):若 Zone 不在当前进程允许的 CPU 集合内,跳过该 Zone。

脏页限制(ac->spread_dirty_pages):

若 Zone 所在节点的脏页超过阈值(node_dirty_ok 失败),跳过以避免单节点脏页堆积。

碎片避免策略(no_fallback):

若启用 ALLOC_NOFRAGMENT,优先从本地 NUMA 节点分配,若需跨节点则允许碎片化(alloc_flags &= ~ALLOC_NOFRAGMENT)。

3. 水位线检查

mark = wmark_pages(zone, alloc_flags & ALLOC_WMARK_MASK);

if (!zone_watermark_fast(zone, order, mark, ...))

水位线类型:根据 alloc_flags 选择低/中/高水位线(例如 ALLOC_WMARK_LOW)。

快速水位检查:zone_watermark_fast 快速判断 Zone 的空闲页是否足够:

若不足,可能触发异步回收(node_reclaim)或延迟页初始化(_deferred_grow_zone)。

4. 分配内存页

page = rmqueue(..., order, gfp_mask, ...);

if (page) {

prep_new_page(page, order, ...);

return page;

}

调用 rmqueue:从指定 Zone 的伙伴系统空闲链表中提取连续内存块。

页面预处理(prep_new_page):

初始化页标志(PG_uptodate、PG_active 等)。

若启用 __GFP_ZERO,通过 post_alloc_hook 清零页面(参考搜索结果中的 get_zeroed_page 流程)。

三、关键机制解析

1. 内存碎片控制

ALLOC_NOFRAGMENT 标志:强制优先从本地节点分配,减少跨节点碎片化。

迁移类型回退:若首选迁移类型(如 MIGRATE_UNMOVABLE)无空闲块,尝试其他类型(如 MIGRATE_RECLAIMABLE)。

2. 水位线与内存回收

水位线触发行为 条件 操作

快速分配 空闲页 ≥ 水位线 直接分配

异步回收 空闲页 < 水位线但允许回收 触发 node_reclaim 回收非活跃页

延迟页初始化处理 启用 CONFIG_DEFERRED_STRUCT_PAGE_INIT 调用 _deferred_grow_zone 初始化延迟页

3. 性能优化设计

本地节点优先:减少跨 NUMA 节点访问延迟。

快速路径剪枝:通过 zone_watermark_fast 快速过滤不满足条件的 Zone。

四、典型场景与代码路径

场景1:普通单页分配(order=0)

alloc_pages(GFP_KERNEL, 0);

路径:rmqueue → 从每 CPU 页缓存(PCP)直接分配,避免全局锁竞争。

场景2:高阶连续内存分配(order=5)

alloc_pages(GFP_HIGHUSER, 5);

路径:遍历 Zone 检查水位线 → 若失败触发 node_reclaim → 调用 rmqueue 分裂高阶块。

场景3:强制清零页面(__GFP_ZERO)

get_zeroed_page(GFP_KERNEL);

路径:prep_new_page → post_alloc_hook → kernel_init_free_pages 清零内存(参考搜索结果中的 get_zeroed_page 流程)。

五、与慢速路径的衔接

若 get_page_from_freelist 失败(返回 NULL),上层函数 __alloc_pages_nodemask 将进入慢速路径:

内存回收:调用 __perform_reclaim 回收页缓存或 Slab 内存。

内存压缩:通过 __alloc_pages_direct_compact 移动页面以合并大块内存。

OOM Killer:若仍无法分配,终止进程释放内存。

总结:get_page_from_freelist 是伙伴系统的快速分配核心,通过水位线检查、碎片控制和高阶块分裂机制,在理想情况下(内存充足、无碎片)高效分配连续物理页。其设计在保证性能的同时,与慢速路径协同处理低内存场景。

相关推荐
MilesShi2 小时前
从 scheduler_tick 到上下文切换:深入解析 Linux 内核的 TIF_NEED_RESCHED 标志设置流程
linux·运维·单片机
我爱云计算5 小时前
K8S详解(5万字详细教程)
linux·运维·云原生·容器·kubernetes
2301_794333917 小时前
实验室服务器配置|通过Docker实现Linux系统多用户隔离与安全防控
linux·服务器·docker·实验室
荣光波比8 小时前
Nginx 实战系列(一)—— Web 核心概念、HTTP/HTTPS协议 与 Nginx 安装
linux·运维·服务器·nginx·云计算
绿箭柠檬茶11 小时前
Ubuntu 使用 Samba 共享文件夹
linux·运维·ubuntu
工藤新一¹12 小时前
Linux —— 虚拟进程地址空间
linux·运维·服务器·c/c++·虚拟进程地址空间
Aspiresky12 小时前
浅析Linux内核scatter-gather list实现
linux·dma·scatter/gather
奔跑吧 android13 小时前
【linux kernel 常用数据结构和设计模式】【数据结构 3】【模拟input子系统input_dev和input_handler之间的多对多关系】
linux·数据结构·input·kernel·input_dev·input_handler·input_handle
再难也得平13 小时前
Linux初级篇
linux·运维·服务器
小猫挖掘机(绝版)14 小时前
通过tailscale实现一台电脑上vscode通过ssh连接另一台电脑上的VMware Linux 虚拟机
linux·windows·vscode·ubuntu·ssh