【Linux】进程地址空间(初步了解)

文章目录

  • [1. 奇怪的现象](#1. 奇怪的现象)
  • [2. 虚拟地址空间](#2. 虚拟地址空间)
  • [3. 关于页表](#3. 关于页表)
  • [4. 为什么要有虚拟地址](#4. 为什么要有虚拟地址)

1. 奇怪的现象

我们先看一个现象:

为什么父子进程从"同一块地址中"读取到的值不一样呢?

因为这个地址不是物理内存的地址 ,如果是物理内存的地址是绝对不可能出现该现象的!

在Linux地址下,这种地址叫做虚拟地址(线性地址)。

我们在用C/C++语言所看到的地址,全部都是虚拟地址!物理地址,用户一概看不到,由OS统一管理。

相信大家在未学习Linux之前一定看过下图中C/C++中程序内存区间划分图,但是它根本不是一个程序的内存布局,它应该叫做进程地址空间布局,它不属于语言的范畴,属于系统范畴。

2. 虚拟地址空间

对操作系统而言,物理空间是有限的,为了避免进程之间"不合理的"使用,OS会给每个进程都画一张进程地址空间布局的"大饼",它让每个进程都自以为自己可以使用大小为空间布局中所示的空间(上图右图所示),在进程申请空间的时候,OS再确定空间是否足够,是否分配给进程。

OS对于所画的"饼"也要进行管理,这个"饼"就是进程虚拟地址空间,本质上是一种内核数据结构的对象(mm_struct)(类似于PCB)。

所以当我们创建一个进程的时候,会有一个task_struct对应的数据结构,为了不让该进程直接访问物理内存,因此在二者之间,OS设计了一种数据结构mm_struct(当前进程的地址空间,即饼)。每个进程都随时随地携带被画的"饼",每次它访问物理内存时,都要通过饼进行访问。

对于虚拟地址空间中的划分,是如何做的呢?

  • 因为虚拟地址空间对应的是一个数据结构,所以就可以在其内部设置各个区域的开始和结束位置即可,下图为Linux内核源代码

尽管有了虚拟地址空间区域划分后,但是进程的代码和数据也是需要占据物理内存的,每一个数据都要占据物理地址,那如何从划分的区域找出对应的物理地址呢?

在操作系统内部,会构建一个叫做页表的东西。

所以,一个进程所能看到的所有的地址,全部都会经过页表的映射,映射到特定的物理内存中;然后让用户使用虚拟地址,去访问对应的物理地址。

所以,虚拟地址空间+页表 = 虚拟内存的管理方案

在创建子进程时,子进程会以父进程为模板,构建自己的PCB、虚拟地址空间、页表。所以父子进程指向同样的物理内存。

在父子不修改指向的同一块地址时,数据其实是共享的。

在一个进程修改数据时,由于进程具有独立性,会先发生写时拷贝,页表中虚拟地址的内容不变,只对要修改的数据重新申请一个新的物理地址,同时修改页表中物理地址的内容即可。

这也就能解释最开始时我们所看到的奇怪现象了。仅仅是它们的虚拟地址相同,物理地址不同罢了

所以我们可以更新一下进程的定义了,进程 = 内核数据结构(task_struct、mm_struct、页表)+ 自己的代码和数据。

所以为什么进程具有独立性呢?

  • 因为它们的PCB、虚拟地址空间、页表都是各自一份;对于代码和数据采用写时拷贝的机制各自私有一份。
  • 由于它的内核数据结构各自一份,代码和数据也是独立的,所以进程也就是独立的。

因此,进程与虚拟地址空间mm_struct是强绑定的。那么虚拟地址空间中的已初始化、未初始化、字符常量区也就会随着进程一直存在,直到进程结束,虚拟地址空间被释放。

那么全局变量的虚拟地址也就一直被大家看到,所以我们所定义的全局变量具有全局性。

3. 关于页表

页表中除了虚拟地址和物理地址的映射以外,还有很多的标记位,例如:

  1. 权限标记位rwx

用于标记当前虚拟地址所映射的物理地址是否具有rwx权限。

  • 当具有w权限时,你就可以对物理地址上的内容进行写入;
  • 当没有w权限,如果对物理地址进行写入,操作系统就可能将进程杀掉。
    • 对常量字符串进行修改,程序崩掉就是该原因。char *str = "hello"; *str = 'C';
    • 运行崩溃,编译不报错,因为这是操作系统运行时才能发现的问题。所以编译器为了检查该类问题,引入了const关键字
  1. isexists

用于标记虚拟地址所对应的物理地址是否在内存中存在(目标数据是否在内存中)。为什么存在这个标记位呢?

  • 当磁盘中的代码量过大,超出内存的大小,无法一次性全部加载到内存中;而且代码中已经跑过的代码没有必要继续在存放在内存中,所以代码不是一下子全部加载到内存中,而是分批加载到内存中。
  • 那么该标记位的作用就是:目标数据是否加载到内存中,通过该标记位就可以知道。
    • 如果已经加载到内存中了,直接按照虚拟与物理的映射进行访问;
    • 如果未加载到内存中,操作系统会帮我们加载。
  • 有了该标记位,就可以支持分批加载 、挂起等操作。

4. 为什么要有虚拟地址

  1. 虚拟地址空间+页表,可保护内存
  • 检查所访问的地址是否正确。
    • 例如野指针,野指针对应的虚拟地址在页表中根本不存在,也就没有映射关系或者映射关系权限不对,操作系统直接拦住,不允许你访问物理内存。
  • 虚拟地址允许操作系统实施更精细的权限控制,通过设置不同的虚拟地址空间,操作系统可以控制哪些部分是只读、可写、可执行的,进一步提高了系统的安全性。
  1. 进程管理与内存管理解耦合
  • 进程管理

    • 虚拟地址为每个进程提供了一个独立的地址空间,使得每个进程都认为它是在独占的内存空间中运行,这个空间在逻辑上是连续的,但实际上是由操作系统进行分段和分页管理的。
    • 进程管理模块只需要关注进程的创建、调度和终止等操作,而无需关心物理内存的实际布局和大小,而是通过一个统一的虚拟地址来访问内存。
  • 内存管理

    • 内存管理模块则负责内存资源的分配、回收和优化等操作,可以根据系统的实际内存情况和需求进行独立管理。

简而言之,进程要被创建,和内存没关系。进程只需要将PCB、地址空间、页表构建好,进程中申请的各种空间,全部在虚拟地址中设置完毕,来骗过进程,等进程后续真正使用的时候,物理内存才真正被申请,以提高物理内存的使用率,虚拟和物理地址二者具有滞后性,各自独立。

如果没有虚拟地址,在对进程进行管理时,还需要考虑内存管理的问题。此时进程若申请内存,就会立马给它,所以还要考虑内存管理的问题(内存分配、回收和置换等复杂操作。)

  1. 让进程以统一的视角看待物理内存

由于有了页表做映射,所以代码和数据在物理内存中可以任意存放,即代码和数据可以加载到物理内存的任意地方。

尽管你在物理内存中是无序的,但我进程看虚拟地址永远是有序的,是一个无序变有序的过程。

相关推荐
yunfanleo9 分钟前
docker run m3e 配置网络,自动重启,GPU等 配置渠道要点
linux·运维·docker
糖豆豆今天也要努力鸭39 分钟前
torch.__version__的torch版本和conda list的torch版本不一致
linux·pytorch·python·深度学习·conda·torch
烦躁的大鼻嘎1 小时前
【Linux】深入理解GCC/G++编译流程及库文件管理
linux·运维·服务器
ac.char1 小时前
在 Ubuntu 上安装 Yarn 环境
linux·运维·服务器·ubuntu
敲上瘾1 小时前
操作系统的理解
linux·运维·服务器·c++·大模型·操作系统·aigc
长弓聊编程1 小时前
Linux系统使用valgrind分析C++程序内存资源使用情况
linux·c++
cherub.1 小时前
深入解析信号量:定义与环形队列生产消费模型剖析
linux·c++
梅见十柒2 小时前
wsl2中kali linux下的docker使用教程(教程总结)
linux·经验分享·docker·云原生
Koi慢热2 小时前
路由基础(全)
linux·网络·网络协议·安全
传而习乎2 小时前
Linux:CentOS 7 解压 7zip 压缩的文件
linux·运维·centos