汇编基础知识:虚拟内存与页表

文章目录

  • 一、虚拟内存
  • 二、页表
    • [1. 平铺页表 (Linear / Flat Page Table)](#1. 平铺页表 (Linear / Flat Page Table))
    • [2. 多级页表 (Multi-level Page Table)](#2. 多级页表 (Multi-level Page Table))
    • [3. 直观对比](#3. 直观对比)
    • [4. 总结与演进](#4. 总结与演进)
  • 三、问答
    • 1、虚拟内存里面放的是什么
      • [1. 代码段(Code / Text Segment)------ "操作说明书"](#1. 代码段(Code / Text Segment)—— “操作说明书”)
      • [2. 全局/静态数据区(Data & BSS Segments)------ "公共仓库"](#2. 全局/静态数据区(Data & BSS Segments)—— “公共仓库”)
      • [3. 堆区(Heap)------ "自由交易市场"](#3. 堆区(Heap)—— “自由交易市场”)
      • [4. 栈区(Stack)------ "临时工作台"](#4. 栈区(Stack)—— “临时工作台”)
      • [💡 进阶揭秘:它们是怎么"虚实结合"的?](#💡 进阶揭秘:它们是怎么“虚实结合”的?)
      • 总结
    • [2、PageFile.sys 里面放了什么](#2、PageFile.sys 里面放了什么)
      • [💡 用一个终极比喻](#💡 用一个终极比喻)
    • 3、分页表到底在系统内存中还是在虚拟内存文件中
      • [1. 页表的"分身术"(多级页表与按需加载)](#1. 页表的“分身术”(多级页表与按需加载))
      • [2. 你在分页文件里看到的,其实是"页表的备份/索引"](#2. 你在分页文件里看到的,其实是“页表的备份/索引”)
      • [💡 总结一下](#💡 总结一下)
    • 4、虚拟内存和PageFile.Sys文件的关系
      • [1. 严谨的定义(学术上的"虚拟内存")](#1. 严谨的定义(学术上的“虚拟内存”))
      • [2. 日常的俗称(Windows 系统设置里的"虚拟内存")](#2. 日常的俗称(Windows 系统设置里的“虚拟内存”))
    • 5、直接用页表不就好了,为什么还要用虚拟内存
      • [1. 解决"地址冲突"的致命问题(隔离性)](#1. 解决“地址冲突”的致命问题(隔离性))
      • [2. 突破物理硬件的上限(扩展性)](#2. 突破物理硬件的上限(扩展性))
      • [3. 让程序员不用"头秃"(抽象性)](#3. 让程序员不用“头秃”(抽象性))
      • 终极总结
    • 6、页表是如何记录程序完整数据状态的
      • [1. 有效位 (Present Bit)](#1. 有效位 (Present Bit))
      • [2. 读写权限位 (Read/Write Bit)](#2. 读写权限位 (Read/Write Bit))
      • [3. 脏位 (Dirty Bit)](#3. 脏位 (Dirty Bit))
      • [4. 访问位 (Accessed Bit)](#4. 访问位 (Accessed Bit))
      • [5. 物理页框号 (Physical Frame Number)](#5. 物理页框号 (Physical Frame Number))
      • [6. 磁盘位置信息 (Disk Location)](#6. 磁盘位置信息 (Disk Location))
      • 7.为什么这种设计如此重要?
    • 7、页表是如何对应虚拟内存和物理内存的
      • [一、 系统为它分配的虚拟内存有多大?](#一、 系统为它分配的虚拟内存有多大?)
      • [二、 为它分配的页表有多大?](#二、 为它分配的页表有多大?)
        • [1. 理论上的最大尺寸](#1. 理论上的最大尺寸)
        • [2. 实际占用的尺寸(多级页表机制)](#2. 实际占用的尺寸(多级页表机制))
      • [三、 页表是如何对应虚拟内存和物理内存的?](#三、 页表是如何对应虚拟内存和物理内存的?)
        • [1. 切割与编号](#1. 切割与编号)
        • [2. 建立映射(字典里写什么?)](#2. 建立映射(字典里写什么?))
        • [3. CPU的翻译过程](#3. CPU的翻译过程)
      • 总结

一、虚拟内存

虚拟内存是计算机系统内存管理的一种技术。它使得应用程序认为它拥有连续的可用的内存(一个连续完整的地址空间),而实际上,它通常是被分隔成多个物理内存碎片,还有部分暂时存储在外部磁盘存储器上,在需要时进行数据交换。大多数操作系统都使用了虚拟内存,如Windows家族的"虚拟内存";Linux的"交换空间"等。

在Windows中,虚拟内存是Windows 为作为内存使用的一部分硬盘空间。虚拟内存在硬盘上其实就是为一个硕大无比的文件,文件名是PageFile.Sys,通常状态下是看不到的。必须关闭资源管理器对系统文件的保护功能才能看到这个文件。虚拟内存有时候也被称为是"页面文件"就是从这个文件的文件名中来的。

  • 真相: 虚拟内存是操作系统给每个进程画的一张**"逻辑地图"(比如32位系统下是0~4GB的地址范围)。它只存在于CPU的寄存器和页表中,是纯粹的数字编号**。
  • 作用: 让每个程序都以为自己独占了整个计算机的内存,不用管别人在干嘛,也不用担心地址冲突。

二、页表

在虚拟内存体系中,有一个非常核心但又常被忽略的组件------页表。你可以把它理解成一个"翻译器":程序运行时使用的是虚拟地址,而操作系统正是通过页表,把这些虚拟地址转换成真正对应的物理内存地址。

它本质上是操作系统构建并维护的一种地址映射机制,用于指导底层硬件如何将程序中使用的虚拟地址转换为主存中的物理地址 (这个转换过程通常由专门的硬件模块:内存管理单元(Memory Management Unit, MMU)执行,并辅以地址转换缓冲器(Translation Lookaside Buffer, TLB)进行缓存优化,从而避免频繁访问主存)。

在操作系统的内存管理中,**平铺页表(Linear/Flat Page Table)多级页表(Multi-level Page Table)**是两种核心的虚拟地址到物理地址映射方案。它们分别代表了"简单直接"与"空间优化"两种不同的设计哲学。

1. 平铺页表 (Linear / Flat Page Table)

这是最基础、最直观的页表实现方式。

核心原理

  • 一维数组:整个页表在内存中是一个连续的线性数组。
  • 直接索引 :虚拟地址被拆分为 页号页内偏移。操作系统直接将 页号 作为下标,去访问这个一维数组,从而获取对应的物理页框号。

优点

  • 查找极快:只需要一次内存访问即可找到页表项(Page Table Entry, PTE),无需递归计算。
  • 实现简单:逻辑非常清晰,不需要复杂的层级管理代码。

致命缺点

  • 内存浪费严重 :必须为整个虚拟地址空间 预分配页表,无论程序是否使用了这些地址。
    • 例子 :在 32位系统(4GB空间)中,若页大小为 4KB,则共有 2 20 2^{20} 220 个页。每个页表项占 4字节,仅页表本身就需要 4MB 连续内存。如果系统有 100 个进程,仅页表就占用 400MB。
    • 更糟的情况:在 64位系统中,虚拟空间极其巨大,平铺页表所需的内存可能远超物理内存总量,根本不可行。
  • 内存连续性要求:需要分配一大块连续的物理内存来存放页表,这在内存碎片化时很难满足。

2. 多级页表 (Multi-level Page Table)

为了解决平铺页表的内存浪费问题,现代操作系统(如 Linux, Windows)普遍采用多级页表。

核心原理

  • 树状结构:将页表拆分成多个层级(例如 32位系统常用两级,64位系统常用四级)。
  • 按需分配:只有当程序真正使用了某段虚拟地址时,才为其分配对应的下级页表。
  • 逐级索引
    1. 虚拟地址被拆分为多段:一级索引 + 二级索引 + ... + 页内偏移
    2. CPU 通过 CR3 寄存器找到页目录基地址
    3. 一级索引 查页目录,得到二级页表的物理地址
    4. 二级索引 查二级页表,得到最终页表项(PTE)
    5. 从 PTE 中提取物理页框号,结合偏移量得到最终物理地址。

优点

  • 极度节省内存:只分配用到的部分。如果程序只用了 1MB 内存,那么只需要根目录的一两个项和对应的一个二级页表,总共几 KB 即可,而不是 4MB。
  • 解决 64位寻址难题:使得 48位甚至 57位虚拟地址空间在工程上变得可行。
  • 无连续性要求:各级页表可以分散在物理内存的任何位置,通过指针链接。

缺点

  • 查找变慢 :从 1次内存访问变成了多次(例如 4级页表需要 4次内存访问)。
    • 缓解措施 :现代 CPU 都有 TLB (Translation Lookaside Buffer),绝大多数情况下 TLB 命中,根本不需要访问内存中的页表。
  • 实现复杂:操作系统内核需要处理页表的分配、释放、合并等复杂逻辑。

3. 直观对比

特性 平铺页表 (Linear) 多级页表 (Multi-level)
数据结构 一维大数组 树状结构(目录 -> 页表)
内存占用 极大(必须覆盖全虚拟空间) 极小(按需分配,稀疏友好)
查找速度 快(1次访存) 较慢(N次访存,但依赖 TLB)
64位支持 ❌ 不可行 ✅ 标准方案
实现难度
典型应用 早期小型系统、嵌入式微控制器 Linux, Windows, macOS 等现代OS

4. 总结与演进

一句话总结 :平铺页表是用空间换时间 的极致(但在大地址空间下空间代价无法承受);多级页表是空间与时间的折中,利用 TLB 弥补了层级查找的时间损耗,换取了巨大的空间节省。

补充知识:

虽然多级页表解决了大部分问题,但在极端稀疏的内存访问模式下仍有浪费。因此,现代架构还引入了更高级的方案:

  1. 反向页表 (Inverted Page Table):以物理页框为索引,全局只有一张表,极度节省内存,但查找需哈希或全表扫描(配合 TLB 使用)。
  2. Radix Tree / Hashed Page Table:如 PowerPC 使用的哈希页表,或 x86-64 的 4级/5级页表变种。
  3. ARM 的 TTBR (Translation Table Base Register):支持不同层级的灵活配置。

目前主流的 x86-64 架构使用的是 4级页表(部分新硬件支持 5级),这是多级页表在现代计算机中最标准的形态。

三、问答

1、虚拟内存里面放的是什么

要回答"虚拟内存里面放的到底是什么",我们必须先明确一个前提:"虚拟内存"(4GB的逻辑地图)本身是一个空壳,它不存放任何真实数据。 真正存放数据的,是物理内存(RAM)硬盘上的分页文件(PageFile.sys)

所以,这个问题真正问的是:当程序运行时,到底有哪些东西被放进了这块巨大的"虚拟地址空间"里?

简单来说,里面放着构成这个程序的四大核心板块。你可以把一个运行中的程序想象成一个正在运转的工厂,这四大板块就是工厂里的四个不同车间:

1. 代码段(Code / Text Segment)------ "操作说明书"

  • 里面是什么: 就是你写的代码经过编译后,变成机器能看懂的二进制指令(比如 MOV, ADD 等汇编指令)。
  • 特点: 它是只读的。为了防止程序在运行中把自己改坏或者中毒,操作系统会把这部分锁死,CPU只能读取并执行,不能修改。

2. 全局/静态数据区(Data & BSS Segments)------ "公共仓库"

  • 里面是什么: 程序员在代码最外面定义的变量(比如 C++ 里的 int global_var = 10;)。
  • 特点: 这些变量在整个程序运行期间都存在。不管哪个函数需要用它,大家去同一个固定的位置拿就行。没初始化的默认放在 BSS 区(全为0),初始化了的放在 Data 区。

3. 堆区(Heap)------ "自由交易市场"

  • 里面是什么: 程序员在代码里动态申请 的数据。比如你在代码里写了 malloc(100MB) 或 Java 里的 new Object(),这些数据就会放在这里。
  • 特点: 这里是最大的、也是最乱的地方。大小由程序员自己决定,用完必须手动释放(C/C++),否则就会发生"内存泄漏"(垃圾越堆越多,最后把系统卡死)。

4. 栈区(Stack)------ "临时工作台"

  • 里面是什么: 函数调用时的局部变量 (比如在函数内部定义的 int i = 0;)、函数的参数,以及记录"上一个函数在哪"的返回地址。
  • 特点: 它的管理极其高效。每次调用一个函数,系统就自动分配一块小空间;函数一结束,这块空间瞬间就被清空回收了。这就是为什么局部变量出了函数就不存在的原因。

💡 进阶揭秘:它们是怎么"虚实结合"的?

虽然上面这四个板块都存在于那 4GB 的"虚拟内存地图"上,但它们并不是一启动就全塞进真实的物理内存条里的。这就回到了我们之前聊过的"按需分配"机制:

  • 刚启动时: 只有极少部分最核心的代码和数据会被立刻加载到真实的物理内存(RAM)中。
  • 运行过程中: 当 CPU 突然需要用到某段还没加载进来的代码或数据时,才会触发缺页中断 ,把它从硬盘上的 .exe 文件或 PageFile.sys 中"请"进物理内存。
  • 内存爆满时: 如果物理内存不够用了,操作系统会毫不留情地把那些很久没用的"堆区"或"栈区"数据踢回硬盘的分页文件里暂存。

总结

如果用一句话来回答你的问题:

虚拟内存(地址空间)里装的是一个程序的"完整骨架"(代码段、全局区、堆、栈),但它的血肉(实际数据)则是根据 CPU 的需要,在物理内存和硬盘之间灵活流动的。

2、PageFile.sys 里面放了什么

在虚拟内存中存放了什么的问题中,提到的"代码段、全局区、堆区、栈区",是指一个程序在运行时的完整骨架

当操作系统启动一个程序时,它会在进程的 4GB **虚拟地址空间(地图)**上划分出这四个区域。但这只是一张"设计图"。在这张图上,这些区域可能还是空的,或者数据还躺在硬盘上的 .exe 源文件里,根本没有进入真实的物理内存,也没有进入 PageFile.sys

PageFile.sys(分页文件)是物理内存的"泄洪区"或"后备仓库"。它里面放的绝对不是完整的程序结构 ,而是被物理内存"挤出来"的零碎数据块(4KB大小的页)

具体来说,PageFile.sys 里通常放着这些东西:

  • 被踢出来的堆/栈数据 :比如你打开了几十个网页,浏览器申请了巨大的堆内存。当你的真实内存条满了,系统会把那些很久没看的网页的数据,从内存里挪到 PageFile.sys 里暂存。
  • 修改过的匿名页 :程序动态分配的数据,因为不在 .exe 文件里,如果不用了又不能丢,就必须写到 PageFile.sys 里。
  • 冷门的页表:正如我们之前聊过的,长期不用的页表本身也会被挪到这里。

注:程序的"代码段"通常是只读的,就算被踢出内存,系统也会直接从硬盘上原本的 .exe 文件重新读取,一般不需要写进 PageFile.sys

💡 用一个终极比喻

想象你要开一家餐厅(运行一个程序):

  • 虚拟内存(地址空间) = 这家餐厅的整体建筑图纸(画着厨房、大堂、仓库、收银台)。这就是我上一条回答给你讲的"四大板块"。图纸上规划得很清楚,但此时店里还没东西。
  • 物理内存(RAM) = 餐厅里真正摆上桌子的餐桌和操作台。客人来了,你把食材搬到这里处理。
  • PageFile.sys(分页文件) = 餐厅后院的一个临时储物棚。当大厅实在坐不下人,或者有些菜暂时没人点,你就把它们先塞到这个储物棚里腾出大厅的空间。

3、分页表到底在系统内存中还是在虚拟内存文件中

首先:页表确实主要放在物理内存(RAM)中。 如果连翻译官(页表)都被踢到硬盘里了,那每次查地址都要去读硬盘,CPU的速度早就被拖成蜗牛了。

但是,为什么又会在虚拟内存文件(分页文件/PageFile.sys)中看到跟页表相关的东西呢?这里有两个极其巧妙的底层设计:

1. 页表的"分身术"(多级页表与按需加载)

在早期的电脑或者简单的系统里,页表确实是整张放在物理内存里的。但现在的程序动辄几个G,如果给每个进程建一张完整的页表,光页表本身可能就要吃掉几百MB的物理内存,这太浪费了。

为了解决这个问题,现代操作系统发明了**"多级页表""页表本身的按需分配"**。

  • 真相:那张4GB的地图对应的完整页表太大了,操作系统不会一次性把它全放进物理内存。它只把当前正在用的那一小部分页表放在物理内存里。
  • 联动 :当程序访问了一个新区域,发现对应的子页表不在物理内存里时,就会触发缺页中断 。这时候,操作系统不仅会把数据从硬盘搬进来,还会把这部分页表也从硬盘加载到物理内存中。
  • 结论:虽然页表平时待在物理内存里,但在极端情况下,那些长期不用的"冷门页表",也是可以被换出到磁盘的分页文件中暂存的。

2. 你在分页文件里看到的,其实是"页表的备份/索引"

如果你用十六进制编辑器打开 PageFile.sys,你会发现里面不仅有普通的数据,还有一些特殊的结构。这又是为什么呢?

想象一下这个场景:

电脑突然断电重启了,物理内存(RAM)里的所有数据瞬间清空。当你再次打开之前那个程序时,操作系统怎么知道哪些数据曾经被换出到了硬盘的哪个位置?

  • 答案 :因为操作系统在把数据踢到硬盘的同时,会在分页文件里留下一份元数据(Metadata)映射记录
  • 这份记录就像是图书馆的"借阅登记册"。即使书(数据和部分页表)被放回了书架深处(或者被清除了),只要登记册还在,下次你需要的时候,系统就能顺着登记册精准地找到它们。

💡 总结一下

  • 常规状态下 :页表绝对是在物理内存中的,这是保证CPU运行速度的底线。
  • 极端状态下 :为了节省宝贵的物理内存,长期不用的"冷门页表"也会被暂时塞进分页文件里。
  • 持久化记录:分页文件里还保留着数据的"户籍信息",防止断电后系统失忆。

4、虚拟内存和PageFile.Sys文件的关系

1. 严谨的定义(学术上的"虚拟内存")

在计算机科学的底层逻辑中,虚拟内存 = 整个逻辑地址空间

它是操作系统给每个程序画的"4GB大饼"。它完全是抽象的逻辑编号,不占物理内存,也不占硬盘空间。它的核心作用是隔离按需分配

2. 日常的俗称(Windows 系统设置里的"虚拟内存")

你在电脑属性里看到的"虚拟内存",以及那个硕大的 PageFile.Sys 文件,其实是虚拟内存机制在运作时,衍生出来的一个具体产物 ------也就是我们常说的分页文件(Page File)交换空间(Swap Space)

为什么需要这个文件呢?因为那张"4GB的大饼"太大了,而你的真实物理内存(比如只有 8GB)根本装不下所有程序的活跃数据。当物理内存快被塞满时,操作系统就必须找个地方把那些"暂时不用的数据"挪出去。这时候,操作系统就在硬盘上划出一块专属地盘(也就是 PageFile.Sys),把它当作物理内存的**"后备仓库"**。

所以,当听到别人讨论"虚拟内存"时,如果是在讲进程隔离、指针寻址,那指的是**"数字地图";如果是在讲"调整虚拟内存大小"、"C盘空间不足",那他们指的其实是那个"硬盘上的后备仓库文件"**。

5、直接用页表不就好了,为什么还要用虚拟内存

**"虚拟内存" "页表"并不是两个平行的东西,而是"目的与手段"**的关系。

一句话总结:虚拟内存是操作系统想要实现的"终极目标",而页表只是实现这个目标的"底层工具"。

如果没有虚拟内存这个概念,光靠一张页表,计算机根本无法正常运作。我们可以从以下三个最致命的角度来看看,为什么必须要有虚拟内存:

1. 解决"地址冲突"的致命问题(隔离性)

假设没有虚拟内存的概念,所有程序直接面对真实的物理内存。

  • 灾难场景 :微信启动时,系统给它分配了 0x00000x1000 的物理内存;紧接着QQ启动,系统又得给它分内存。如果QQ的代码里写死了要访问 0x0000,就会直接覆盖掉微信的数据,甚至导致整个系统崩溃。
  • 虚拟内存的作用 :有了虚拟内存后,每个进程都以为自己独占了 0x0000 开始的4GB空间。大家各自在自己的世界里用着相同的地址编号,互不干扰。
  • 页表的苦力活 :正是因为大家用了相同的虚拟地址,CPU才需要页表这个翻译官来把"各自的0x0000"翻译成"不同的真实物理地址"。

比喻 :虚拟内存就像是给每个员工分配了一间独立的办公室 。虽然门牌号都是"1号房间",但里面的人互不影响。而页表,就是大楼前台手里的通讯录,负责把"张三的1号房间"指引到大楼的A栋,把"李四的1号房间"指引到B栋。如果没有"独立办公室(虚拟内存)"的概念,大家都挤在一个大厅里办公,前台的通讯录写得再好也没用。

2. 突破物理硬件的上限(扩展性)

假设你的电脑只有 4GB 的真实物理内存条,但你同时打开了一个 3GB 的游戏和一个 2GB 的视频剪辑软件,总共需要 5GB。

  • 如果没有虚拟内存:当系统分配完 4GB 后,剩下的 1GB 需求就无法满足了,程序会直接报错闪退(Out of Memory)。
  • 虚拟内存的作用:它允许程序使用比真实物理内存大得多的地址空间。那多出来的 1GB 数据,会被暂时放在硬盘上。
  • 页表的苦力活:页表不仅要记录数据在物理内存里的位置,还要记录那些被踢到硬盘上的数据的"存放地址"。

3. 让程序员不用"头秃"(抽象性)

想象一下,如果没有虚拟内存,程序员写代码时会面临什么?

  • 每次申请内存,都要先问系统:"现在还有哪块真实的物理内存是空的?"
  • 如果申请到了,还要记住这块内存在主板插槽上的具体物理位置。
  • 如果电脑重启了,或者加了根新内存条,所有的物理地址全变了,程序直接瘫痪。
  • 虚拟内存的作用 :它提供了一个连续的、永远不变的逻辑地址空间。程序员只管 malloc(100MB),根本不需要关心底层硬件是怎么排布的。

终极总结

因为页表只是一本字典 ,它本身不具备任何功能。你必须先有一个"虚拟内存"这套宏大的制度设计,规定好每个进程都有自己独立的地址空间,然后页表才能派上用场,去充当那个不知疲倦的翻译官。

所以,不是"有了页表就不需要虚拟内存",而是**"为了实现虚拟内存,我们才发明了页表这种机制"**。

6、页表是如何记录程序完整数据状态的

页表不仅仅是一个简单的"地址对照表",它还包含多个关键的状态位,用于精确管理每一页数据的生命周期:

1. 有效位 (Present Bit)

这是最核心的标志。

  • 值为1:表示该页当前在物理内存中,CPU可以直接访问。
  • 值为0:表示该页不在内存中(可能在磁盘的分页文件里,或尚未分配),访问时会触发缺页中断。

2. 读写权限位 (Read/Write Bit)

控制该页是否可以被写入。例如,代码段通常设为只读,防止程序意外修改自身指令;堆栈区域则允许读写。

3. 脏位 (Dirty Bit)

标记该页在内存中是否被修改过。

  • 如果被修改过(脏位=1),当需要换出到磁盘时,必须写回分页文件。
  • 如果没改过(脏位=0),可以直接丢弃或覆盖,无需写盘,节省I/O开销。

4. 访问位 (Accessed Bit)

记录该页最近是否被访问过。操作系统利用这个信息来判断哪些页面是"冷数据",在内存紧张时优先将其换出(如LRU算法)。

5. 物理页框号 (Physical Frame Number)

当有效位为1时,这里存储的是该虚拟页在物理内存中的实际位置编号。

6. 磁盘位置信息 (Disk Location)

当有效位为0时,页表中会记录该页在磁盘分页文件中的具体位置(如扇区号),以便操作系统能快速定位并加载。

7.为什么这种设计如此重要?

  • 隔离性:每个进程有自己的页表,进程A无法访问进程B的内存,因为它们的页表完全不同。
  • 灵活性:程序可以使用比物理内存更大的地址空间,因为不常用的数据可以被换到磁盘。
  • 效率:只有真正被访问的数据才会被加载到内存,避免了不必要的资源浪费。
  • 安全性:通过权限位,操作系统可以保护关键数据和代码不被非法修改。

7、页表是如何对应虚拟内存和物理内存的

问题:一个3G的程序,系统为它分配的虚拟内存有多大,为它分配的页表又有多大,页表是如何对应虚拟内存和物理内存的

为了理清这个逻辑,我们需要把"程序大小"、"虚拟内存空间"和"页表大小"这三个概念彻底剥离开来。

假设运行的是一个 32位操作系统 ,并且这个程序的代码、数据加上运行时需要的堆栈总共是 3GB。以下是系统为它分配的实际情况:

一、 系统为它分配的虚拟内存有多大?

答案:依然是完整的 4GB。

  • 为什么不是3GB? 虚拟地址空间(0x00000000 到 0xFFFFFFFF)是操作系统在进程启动时,直接画好的一张固定大小的"地图"。不管你的程序实际只有1MB还是3GB,这张地图永远是4GB的。
  • 这4GB是怎么用的?
    • 其中约 3GB 被用来映射你的程序本身(代码段、全局变量、堆区、栈区)。
    • 剩下的约 1GB 通常是留给操作系统内核使用的(比如驱动程序、硬件映射等),或者留作未来动态扩展的空白区域。
  • 核心点: 分配了4GB虚拟内存,绝对不等于系统给你划走了4GB的物理内存或硬盘空间。那3GB的程序依然遵循"按需加载"的原则,用到哪才搬哪。

二、 为它分配的页表有多大?

这个问题非常有意思,因为现代操作系统的页表设计极其巧妙。它的真实大小可能会让你大吃一惊。

1. 理论上的最大尺寸

在32位系统中,虚拟内存被切分成无数个 4KB 的小块(称为"页")。

  • 4GB ÷ 4KB = 1,048,576 个页
  • 如果每一个页都需要一条记录(通常占4字节),那么完整页表的大小是:1,048,576 × 4B = 4MB
    也就是说,哪怕是一个空壳程序,理论上最多也就需要 4MB 的空间就能装下它的整张页表。相比动辄几GB的数据,页表的开销微乎其微。
2. 实际占用的尺寸(多级页表机制)

实际上,系统根本不会傻乎乎地一次性分配4MB的连续物理内存给这个页表。

  • 真相 :现代操作系统使用的是多级页表 。既然你的程序只用了3GB,而且很多页面可能根本没被访问过,系统只会为已经用到的部分创建子页表。
  • 结果 :一个刚启动的3GB程序,其实际占用的物理内存中的页表大小,可能只有 几十KB 到 几百KB 而已。

三、 页表是如何对应虚拟内存和物理内存的?

你可以把页表想象成一本 "字典",CPU就是那个查字典的人。它的对应过程是这样的:

1. 切割与编号

系统把庞大的虚拟内存(地图)和物理内存(仓库)都强行切成了 4KB 大小的小方块

  • 虚拟内存里的方块叫"虚拟页"。
  • 物理内存里的方块叫"物理页框"。
2. 建立映射(字典里写什么?)

当你的程序第一次访问某段代码时,操作系统会把这段代码从硬盘读入物理内存的一个空闲页框中。然后,在页表里写下这样一条记录:

"虚拟页号 #100 ➡️ 物理页框号 #500 (状态:有效/可读/可执行)"

3. CPU的翻译过程

当CPU要读取虚拟地址 0x00064000 的数据时:

  1. 算账 :CPU通过简单的数学计算,发现这个地址属于第 100 号虚拟页。
  2. 查表 :CPU拿着 100 这个数字去查页表,找到了对应的物理页框号 500
  3. 定位 :CPU知道数据在物理内存的第 500 号房间里,再加上原本地址的偏移量,精准提取出数据。

总结

对于一个3GB的程序:

  • 虚拟内存 :雷打不动,给你一张 4GB 的逻辑大饼。
  • 页表大小 :理论极限是 4MB ,但实际占用可能只有 几百KB(因为按需分配)。
  • 运作方式 :把内存切成 4KB 的豆腐块,用页表这本字典,把虚拟的豆腐块编号翻译成真实的物理房间号。
相关推荐
斐夷所非4 天前
虚拟内存 | 原理、硬件地址转换、运行机制与 Linux 应用
虚拟内存
atomicmaker16 天前
操作系统 — 内存管理
操作系统·内存管理·虚拟内存·段页式
kidwjb3 个月前
虚拟内存的使用
虚拟内存
kidwjb3 个月前
虚拟内存的运作
虚拟内存
燃于AC之乐5 个月前
【Linux系统编程】进程地址空间完全指南:页表、写时拷贝与虚拟内存管理
linux·操作系统·虚拟内存·进程地址空间
柏木乃一5 个月前
进程(8)虚拟地址空间/虚拟内存概述.part1
linux·服务器·c++·进程·虚拟内存·fork
再睡一夏就好6 个月前
深入解析Linux页表:从虚拟地址到物理内存的映射艺术
linux·运维·服务器·c语言·c++·页表·缺页异常
fei_sun6 个月前
【计组】2021年真题
页表
Trouvaille ~6 个月前
【Linux】虚拟内存揭秘:地址空间的魔法
linux·运维·服务器·系统·入门·虚拟内存·进程地址空间