Linux：进程虚拟地址空间|虚拟内存管理

上篇文章：Linux：命令行参数与环境变量

1.程序地址空间

2.进程虚拟地址空间

2.1虚拟地址

1.程序地址空间

32位系统：

在C语言的学习中，我们都见过这样的空间布局图，而此图表示的空间并不是内存，而是进程的虚拟地址空间。

对各个区域分布验证：

复制代码

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int g_unval;
int g_val = 100;
int main(int argc, char *argv[], char *env[])
{
 const char *str = "helloworld";
 printf("code addr: %p\n", main);
 printf("init global addr: %p\n", &g_val);
 printf("uninit global addr: %p\n", &g_unval);
 static int test = 10;
 char *heap_mem = (char*)malloc(10);
 char *heap_mem1 = (char*)malloc(10);
 char *heap_mem2 = (char*)malloc(10);
 char *heap_mem3 = (char*)malloc(10);

 printf("heap addr: %p\n", heap_mem); //heap_mem(0), &heap_mem(1)
 printf("heap addr: %p\n", heap_mem1); //heap_mem(0), &heap_mem(1)
 printf("heap addr: %p\n", heap_mem2); //heap_mem(0), &heap_mem(1)
 printf("heap addr: %p\n", heap_mem3); //heap_mem(0), &heap_mem(1)
 
 printf("test static addr: %p\n", &test); //heap_mem(0), &heap_mem(1)
 
 printf("stack addr: %p\n", &heap_mem); //heap_mem(0), &heap_mem(1)
 printf("stack addr: %p\n", &heap_mem1); //heap_mem(0), &heap_mem(1)
 printf("stack addr: %p\n", &heap_mem2); //heap_mem(0), &heap_mem(1)
 printf("stack addr: %p\n", &heap_mem3); //heap_mem(0), &heap_mem(1)
 printf("read only string addr: %p\n", str);
 for(int i = 0 ;i < argc; i++)
 {
 printf("argv[%d]: %p\n", i, argv[i]);
 }
 for(int i = 0; env[i]; i++)
 {
 printf("env[%d]: %p\n", i, env[i]);
 }
 return 0;
}

此代码堆空间不需要&，栈空间需要&。

原因是因为堆内存通过malloc/calloc/new等函数动态分配，这些函数的返回值是指向堆内存的指针，heap_mem本身是一个指针变量（通常存储在栈上），但它的值是堆内存的起始地址 。因此，直接打印 heap_mem 时，输出的就是它存储的 "堆地址"，不需要额外用 & 取地址。而栈上的局部变量（如 heap_mem 这个指针变量本身）、静态变量（如 test），它们的变量名是内存中值的 "别名"，不是地址。

运行上述代码：

堆，栈相对而生

结论：进程存在，地址空间必须一直存在。

**问题1：**在C语言中，char *s = "hello world"; *s = 'H'，此代码会报错。

一个指针在系统中只能占据4或者8个字节，而字符串明显大于这个数，所有字符串不能存入指针中，它应该会被编译到一个字符常量的地方，用指针指向s，而常量区不能被修改，所以上述代码会报错。根据上述代码运行结果也说明字符常量区和代码区是在一起的，而代码区是只读的。

**问题2：**static修饰局部变量：作用域不变，生命周期变全局

之所以生命周期变全局是因为static它自己本身就变为了全局变量。

2.进程虚拟地址空间

2.1虚拟地址

先看此代码：

复制代码

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>

int g_val = 0;

int main()
{
     pid_t id = fork();
     if(id < 0){
         perror("fork");
         return 0;
     }
     else if(id == 0){ //child
         printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);
     }else{ //parent
         printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);
     }
     sleep(1);
     return 0;
}

运行结果：

再修改的代码：

复制代码

  1 #include <stdio.h>
  2 #include <unistd.h>
  3 #include <stdlib.h>
  4 
  5 int g_val = 0;
  6 
  7 int main()
  8 {
  9      pid_t id = fork();
 10      if(id < 0){   
 11          perror("fork");
 12          return 0;
 13      }        
 14      else if(id == 0)
 15      {   //child
 16         while(1)
 17         {
 18             printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);
 19             sleep(1);
 20             g_val++;                                                     
 21         }
 22      }                                              
 23      else        
 24      {   //parent
 25          while(1)
 26          {                                                           
 27             printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);
 28             sleep(1);
 29          } 
 30      }        
 31      sleep(1);
 32      return 0;
 33 }

结果：

父子地址居然是相同的，这说明C/C++看到的地址，绝对不是物理地址。而是虚拟地址！！！

2.2相关概念和写时拷贝

访问内存的基本单位是字节，每个字节都有地址，虚拟地址通过页表（保存虚拟地址到物理地址的映射）与物理地址相关联。每个进程都需要pcb，虚拟地址空间，页表。

而之所以父子进程的地址是相同的，是因为子进程拷贝了父进程的页表，发生了地址级别的浅拷贝，因此其地址相同。

进程是具有独立性的 ，如果父子进程是只读，就不会有影响，如果子进程有所修改，系统就会为其在物理地址新开辟一块空间 ，所以表现为虚拟地址相同，但是打印的值不同。而这也被称为写时拷贝（用时间换内存）。

2.3理解虚拟地址空间

形象理解：

OS（大富翁）：代表操作系统，它掌控着真实的物理内存资源（图里写的 "10 个亿 $" 就是物理内存总量）。

"画饼"：虚拟地址空间（内核数据结构对象） 就是 OS 给每个进程 "画的饼"------ 每个进程都以为自己独占了整个内存空间（比如 32 位系统是 4GB，64 位系统更大），但这是虚拟的、逻辑上的，不是真实的物理内存。

"私生子"：代表一个个独立的进程。每个进程都有自己专属的 "饼"（虚拟地址空间），彼此完全隔离。

struct mm_struct：是 Linux 内核里用来描述和管理进程虚拟地址空间的数据结构，相当于每个进程虚拟地址空间的 "户口本" 或 "管理账本"。

那么在进程的虚拟地址空间中，有着不同的区域，而结构体是如何划分区域的？

通过struct destop{ int size= ; int _start = ; int _end = ; }，只需要划分区域的开始和结束即可。而在这其中的虚拟地址就是从虚拟地址空间完成的。

堆区和栈区都是在运行期间申请，都是变化的->区域空间的调整

2.4意义

1.可以对内存有更好的保护

2.把进程的代码和数据在空间排布上，从无序变为有序

3.进程管理模块和内存管理模块就完成了解耦合

在早期的计算机中，要运行一个程序，会把这些程序全都装入内存，程序都是直接运行在内存上的，也就是说程序中访问的内存地址都是实际的物理内存地址。当计算机同时运行多个程序时，必须保证这些程序用到的内存总量要小于计算机实际物理内存的大小。

那当程序同时运行多个程序时，操作系统是如何为这些程序分配内存的呢？例如某台计算机总的内存大小是128M，现在同时运行两个程序A和B，A需占用内存10M，B需占用内110。计算机在给程序分配内存时会采取这样的方法：先将内存中的前10M分配给程序A，接着再从内存中剩余的118M中划分出110M分配给程序B。

这种分配方法可以保证程序A和程序B都能运行，但是这种简单的内存分配策略问题很多。

安全风险

每个进程都可以访问任意的内存空间，这也就意味着任意一个进程都能够去读写系统相关内存区域，如果是一个木马病毒，那么他就能随意的修改内存空间，让设备直接瘫痪。
地址不确定

众所周知，编译完成后的程序是存放在硬盘上的，当运行的时候，需要将程序搬到内存当中去运行，如果直接使用物理地址的话，我们无法确定内存现在使用到哪里了，也就是说拷贝的实际内存地址每一次运行都是不确定的，比如：第一次执行a.out时候，内存当中一个进程都没有运行，所以搬移到内存地址是0x00000000，但是第二次的时候，内存已经有10个进程在运行了，那执行a.out的时候，内存地址就不一定了

效率低下

如果直接使用物理内存的话，一个进程就是作为一个整体（内存块）操作的，如果出现物理内存不够用的时候，我们一般的办法是将不常用的进程拷贝到磁盘的交换分区中，好腾出内存，但是如果是物理地址的话，就需要将整个进程一起拷走，这样，在内存和磁盘之间拷贝时间太长，效率较低。

存在这么多问题，有了虚拟地址空间和分页机制就能解决了。

地址空间和页表是OS创建并维护的！是不是也就意味着，凡是想使用地址空间和页表进行映射，

也一定要在OS的监管之下来进行访问！！也顺便保护了物理内存中的所有的合法数据，包括各个

进程以及内核的相关有效数据！

因为有地址空间的存在和页表的映射的存在，我们的物理内存中可以对未来的数据进行任意位置

的加载！物理内存的分配和进程的管理就可以做到没有关系，进程管理模块和内存管理模块就完

成了解耦合。

因为有地址空间的存在，所以我们在C、C++语言上new,malloc空间的时候，其实是在地址

空间上申请的，物理内存可以甚至一个字节都不给你。而当你真正进行对物理地址空间访问

的时候，才执行内存的相关管理算法，帮你申请内存，构建页表映射关系（延迟分配），这

是由操作系统自动完成，用户包括进程完全0感知！！

因为页表的映射的存在，程序在物理内存中理论上就可以任意位置加载。它可以将地址空间上的

虚拟地址和物理地址进行映射，在进程视角所有的内存分布都可以是有序的。

3.虚拟内存管理

描述linux下进程的地址空间的所有的信息的结构体是mm_struct（内存描述符）。每个进程只有一

个mm_struct结构，在每个进程的 task_struct 结构中，有一个指向该进程的mm_struct结构体指针。

复制代码

struct task_struct
{
 /*...*/
 struct mm_struct *mm; //对于普通的⽤⼾进程来说该字段指向他
  // 的虚拟地址空间的⽤⼾空间部分，对于内核线程来说这部分为NULL。 
 struct mm_struct *active_mm; // 该字段是内核线程使⽤的。当
  // 该进程是内核线程时，它的mm字段为NULL，表⽰没有内存地址空间，可也并不是真正的没有，这是因
  // 为所有进程关于内核的映射都是⼀样的，内核线程可以使⽤任意进程的地址空间。 
 /*...*/
}

由于虚拟内存中有动态变化的区域，以堆区为例，那么在原本连续的堆区中，有一部分不连续了，

要怎么表达呢？

虚拟内存会对不连续的每个区域都进行start和end的限制。

可以说， mm_struct 结构是对整个用户空间的描述。每一个进程都会有自己独立的 mm_struct，这样每一个进程都会有自己独立的地址空间才能互不干扰。先来看看由 task_struct 到mm_struct，进程的地址空间的分布情况：

定位 mm_struct 文件所在位置和 task_struct 所在路径是一样的，不过他们所在文件是不一样的，mm_struct 所在的文件是 mm_types.h

复制代码

struct mm_struct
{
     /*...*/
     
     struct vm_area_struct *mmap; /* 指向虚拟区间(VMA)链表 */ 
     struct rb_root mm_rb; /* red_black树 */ 
     unsigned long task_size; /*具有该结构体的进程的虚拟地址空间的⼤⼩*/ 
     
        /*...*/
     
     // 代码段、数据段、堆栈段、参数段及环境段的起始和结束地址。 
     unsigned long start_code, end_code, start_data, end_data;
     unsigned long start_brk, brk, start_stack;
     unsigned long arg_start, arg_end, env_start, env_end;
     
        /*...*/
}

那既然每一个进程都会有自已独立的 mm_struct，操作系统肯定是要将这么多进程的 mm_struct组织起来的！虚拟空间的组织方式有两种：

1.当虚拟区较少时采取单链表，由mmap指针指向这个链表；

2.当虚拟区间多时采取红黑树进行管理，由mm_rb指向这棵树。

linux内核使用 vm_area_struct 结构来表示一个独立的虚拟内存区域(VMA)，由于每个不同质的虚

拟内存区域功能和内部机制都不同，因此一个进程使用多个vm_area_struct结构来分别表示不同类型的虚拟内存区域。上面提到的两种组织方式使用的就是vm_area_struct结构来连接各个VMA，方便进程快速访问。

复制代码

struct vm_area_struct 
{
         unsigned long vm_start; //虚存区起始 
         unsigned long vm_end; //虚存区结束 
         struct vm_area_struct *vm_next, *vm_prev; //前后指针 
         struct rb_node vm_rb; //红⿊树中的位置 
         unsigned long rb_subtree_gap;
         struct mm_struct *vm_mm; //所属的 mm_struct 
         pgprot_t vm_page_prot; 
         unsigned long vm_flags; //标志位 
         struct {
                 struct rb_node rb;
                 unsigned long rb_subtree_last;
         } shared; 
 
          struct list_head anon_vma_chain;
          struct anon_vma *anon_vma;
          const struct vm_operations_struct *vm_ops; //vma对应的实际操作 
          unsigned long vm_pgoff; //⽂件映射偏移量 
          struct file * vm_file; //映射的⽂件 
          void * vm_private_data; //私有数据 
          atomic_long_t swap_readahead_info;
#ifndef CONFIG_MMU
          struct vm_region *vm_region; /* NOMMU mapping region */
#endif
#ifdef CONFIG_NUMA
          struct mempolicy *vm_policy; /* NUMA policy for the VMA */
#endif
          struct vm_userfaultfd_ctx vm_userfaultfd_ctx;
} __randomize_layout;

本章完。