一、核心结论
虚拟地址空间是操作系统为每个进程分配的连续逻辑地址范围(32 位系统为 0~4GB),通过分页机制将连续虚拟地址映射到离散物理内存,既解决了物理内存碎片问题,也为线程共享资源提供了底层支持 ------ 线程共享进程的虚拟地址空间,本质是共享同一套虚拟→物理的映射关系。
二、为什么需要虚拟地址空间?
无虚拟内存时,程序需占用连续的物理内存,会导致两个严重问题:
- 物理内存碎片:多个程序启停后,物理内存会被分割成离散小块,无法容纳大程序;
- 地址冲突:多个程序可能使用相同的物理地址,导致数据覆盖。
虚拟地址空间的出现解决了这两个问题:
- 给每个进程分配独立的连续逻辑地址(虚拟地址),程序无需关心物理内存布局;
- 通过页表将虚拟地址映射到离散的物理内存页,实现 "虚拟连续、物理离散"。
三、分页管理的核心机制
1. 基本概念
- 物理页(页框):物理内存按固定大小(通常 4KB)划分的存储块,是内存分配的最小单位;
- 虚拟页:虚拟地址空间按与物理页相同的大小划分的逻辑块;
- 页表:存储虚拟页与物理页映射关系的表格,是虚拟地址转换的核心。
2. 分页机制的工作流程
- 虚拟地址拆分:32 位系统中,4KB 页大小对应虚拟地址低 12 位为 "页内偏移",高 20 位为 "页号";
- 页表查找:CPU 通过页号查询页表,找到对应的物理页起始地址;
- 物理地址计算:物理页起始地址 + 页内偏移 = 最终物理地址;
- 访问物理内存:CPU 通过物理地址读取数据,若虚拟页未映射物理内存则触发缺页异常。
3. 多级页表:解决单级页表的内存浪费
单级页表需存储 1048576 个表项(4GB/4KB),占用 4MB 连续物理内存,多级页表(如二级)将页表拆分为 "页目录表" 和 "页表":
- 页目录表:存储页表的物理地址,仅需 1 个 4KB 页;
- 页表:每个页表存储 1024 个表项,覆盖 4MB 虚拟地址,程序按需加载页表,大幅减少内存占用。
四、缺页异常:虚拟内存的动态映射
当 CPU 访问的虚拟地址未映射物理内存时,会触发缺页异常(Page Fault),内核的Page Fault Handler按类型处理:
| 异常类型 | 场景描述 | 处理方式 |
|---|---|---|
| 硬缺页(Major) | 物理内存无对应页,需从磁盘加载 | 分配物理页→从磁盘读取数据→建立映射 |
| 软缺页(Minor) | 物理内存有对应页,但未建立映射(如共享内存) | 直接建立虚拟→物理映射,无需磁盘 IO |
| 无效缺页(Invalid) | 访问非法地址(如越界、空指针解引用) | 触发 SIGSEGV 信号,终止进程 |
关键注意点:
- 缺页异常是正常机制,
malloc申请内存时仅分配虚拟地址,首次访问才触发缺页异常分配物理内存; - 写时复制(COW)的底层依赖缺页异常:fork 创建子进程时共享物理页,修改时触发缺页异常,分配新物理页并复制数据。
五、物理内存管理:struct page 结构体
内核用struct page描述每个物理页,核心字段如下:
flags:页状态标志(如PG_dirty表示脏页、PG_locked表示页被锁定);_mapcount:页被引用的次数,-1 表示可分配;virtual:页的内核虚拟地址,高端内存可能为 NULL,需动态映射。
管理成本:
假设 4GB 物理内存、4KB 页大小,共 1048576 个物理页,每个struct page约 40 字节,总管理成本仅 40MB,代价极低。
六、线程共享虚拟地址空间的底层意义
线程共享进程的mm_struct,意味着共享同一套页表和虚拟地址→物理地址映射关系:
- 线程访问全局变量、堆内存时,通过相同的页表找到物理内存,实现数据共享;
- 线程切换时无需切换页表(仅切换 CPU 寄存器和栈),大幅降低切换成本;
- 进程的虚拟地址空间布局(代码段、数据段、堆、栈)对所有线程可见。
七、总结
- 虚拟地址空间通过分页机制实现 "虚拟连续、物理离散",解决物理内存碎片问题;
- 缺页异常是动态内存映射的核心,支撑写时复制、共享内存等特性;
- 线程共享虚拟地址空间的本质是共享
mm_struct和页表,这是线程通信便捷、切换成本低的底层原因。
下一篇将详细对比进程与线程的资源共享与独占特性,敬请关注!