Linux内存映射

Linux内存映射

一、物理地址空间

物理地址是处理器在系统总线上看到的地址。使用RISC的处理器通常只实现一个物理地址空间,外围设备和物理内存使用统一的物理地址空间。有些处理器架构把分配给外围设备的物理地址区域称为设备内存。

处理器通过外围设备控制器的寄存器访问外围设备,寄存器分为控制寄存器,状态寄存器和数据寄存器三大类。外围设备的寄存器通常被连续编址,处理器对外围设备寄存器编址方式分为两种:

  • I/O映射方式 (I/O-mapped)
  • 内存映射方式 (memory-mapped)

应用程序只能通过虚拟地址访问外围寄存器,内核提供API函数来把外围寄存器的物理地址映射到虚拟地址空间。

ARM64架构(物理地址宽度最大支持48位)分为两种内存类型:

  • 正常内存 (Normal Memory):包括物理内存和只读内存 (ROM);
  • 设备内存 (Device Memory):指分配给外围设备寄存器的物理地址区域。
  • 设备内存共享属性总是外部共享,缓存属性总是不可缓存(必须绕过处理器的缓存)。

两个进程可以使用共享的文件映射实现共享内存。匿名映射通常是私有映射,共享的匿名映射只能出现在父进程和子进程之间。在进程的虚拟地址空间中,代码段和数据段是私有的文件映射,未初始化数据段、堆栈是私有的匿名映射。

修改过的脏页面不会立即更新到文件中,可以调用msync来强制同步写入文件。

二、虚拟内存区域 (VMA) 与数据结构

在Linux内核中,内存管理涉及到几个关键的结构体:task_structmm_structvm_area_struct

  • task_struct: 进程描述符,包含进程的所有信息。
  • mm_struct : 描述进程的内存地址空间。task_struct 中有一个指针 struct mm_struct *mm 指向它。
  • vm_area_struct : 描述虚拟内存区域 (VMA)。mm_struct 中有一个指针 struct vm_area_struct *mmap 指向 VMA 链表。

VMA 是"进程地址空间的一段规则",页表建立/缺页处理都依赖它(见 mmap.c 的 vma merge/split 逻辑)。

vm_area_struct 源码分析

vm_area_struct 结构体定义了虚拟内存区域的属性(参考内核源码注释):

c 复制代码
struct vm_area_struct {
    /* The first cache line has the info for VMA tree walking. */

    // 这两个成员分别用来保存该虚拟内存空间的首地址和末地址后第一个字节的地址。
    unsigned long vm_start;     /* Our start address within vm_mm. */
    unsigned long vm_end;       /* The first byte after our end address within vm_mm. */
    
    /* linked list of VM areas per task, sorted by address */
    struct vm_area_struct *vm_next, *vm_prev; // 分别VMA链表的前后成员连接操作

    // 如果采用链表组织化,会影响到它搜索速度问题,解决此问题采用红黑树
    // 创建一棵红黑树,将VMA作为一个节点加入到红黑树中,这样可以提升搜索速度
    struct rb_node vm_rb;

    /*
     * Largest free memory gap in bytes to the left of this VMA.
     * Either between this VMA and vma->vm_prev, or between one of the
     * VMAs below us in the VMA rbtree and its ->vm_prev. This helps
     * get_unmapped_area find a free area of the right size.
     */
    unsigned long rb_subtree_gap;

    /* Second cache line starts here. */
    
    struct mm_struct *vm_mm;    // 指向内存描述符,即虚拟内存区域所属的用户虚拟地址空间
    pgprot_t vm_page_prot;      // 保护位,即访问权限

    /* 标志 */
    #define VM_READ     0x00000001
    #define VM_WRITE    0x00000002
    #define VM_EXEC     0x00000004
    #define VM_SHARED   0x00000008
    /* ... */
    unsigned long vm_flags;

    /* 为了支持查询一个文件区间被映射到哪些虚拟内存区域,把一个文件映射到的所有虚拟内存区域加入该文件地址空间结构 address_space的成员i_mmap指向的红黑树 */
    struct {
        struct rb_node rb;
        unsigned long rb_subtree_last;
    } shared;

    /*
     * A file's MAP_PRIVATE vma can be in both i_mmap tree and anon_vma
     * list, after a COW of one of the file pages. A MAP_SHARED vma
     * can only be in the i_mmap tree. An anonymous MAP_PRIVATE, stack
     * or brk vma (with NULL file) can only be in an anon_vma list.
     */
    
    // 把虚拟内存区域关联的所有anon_vma实例串联起来,一个虚拟内存区域会关联到父进程的anon_vma实例和自己的anon_vma实例
    struct list_head anon_vma_chain;
    
    // 指向一个anon_vma实例,结构anon_vma用来组织匿名页被映射到的所有的虚拟地址空间
    struct anon_vma *anon_vma; /* Serialized by page_table_lock */

    /*
     * 虚拟内存操作集合
     */
    const struct vm_operations_struct *vm_ops;
    
    /* Information about our backing store: */
    unsigned long vm_pgoff;     // 文件偏移,单位是页
    struct file * vm_file;      // 文件,如果是私有的匿名映射,该成员是空指针。
    void * vm_private_data;     // 指向内存区的私有数据
};

文件映射与虚拟内存区域的关系

文件映射通常涉及以下结构:

  1. vm_area_struct: 代表一段虚拟地址范围。
  2. vm_operations_struct : 包含针对该VMA的操作函数,如 open, close, fault (缺页异常处理), page_mkwrite (通知系统即将变为可写) 等。
  3. file: 打开的文件实例。
  4. inode: 文件索引节点。

当进行文件映射时:

  • vm_area_struct 中的 vm_file 指向 struct file
  • struct file 指向 struct inode
  • vm_area_struct 中的 vm_ops 指向文件系统提供的操作函数集。

三、系统调用与mmap原理

应用程序通常使用C标准库提供的函数 malloc() 申请内存。glibc库的内存分配器 ptmalloc 使用 brkmmap 向内核以页为单位申请虚拟内存,然后把页划分成小内存块分配给应用程序。

  • 默认的阈值是 128kb
  • 如果应用程序申请的内存长度小于 阈值,ptmalloc分配器使用 brk 向内核申请虚拟内存。
  • 否则,ptmalloc分配器使用 mmap 向内核申请虚拟内存。

应用程序也可以直接使用 mmap 向内核申请虚拟内存。

mmap内存映射原理三个阶段

  1. 进程启动映射过程 :并且在虚拟地址空间中为映射创建虚拟映射区域 (vm_area_struct)。
  2. 调用内核空间的系统调用函数mmap :(不同于用户空间函数),实现文件物理地址和进程虚拟地址的映射关系
  3. 进程发起对这片映射空间的访问:引发缺页异常,实现文件内容到物理内存(主存)的拷贝。
相关推荐
last demo1 天前
openstack基础
linux·运维·openstack
代码AC不AC1 天前
【Linux】进程状态
linux·进程·进程状态
wdfk_prog1 天前
[Linux]学习笔记系列 -- [fs]read_write
linux·笔记·学习
看见繁华1 天前
Linux 相关
linux·运维·服务器
源图客1 天前
CentOS系统安装Python3.12.10
linux·运维·centos
立夏陆之昂1 天前
Ubuntu下安装easyconnect
linux·ubuntu
运维之美@1 天前
linux主机ping不通问题排查
linux·运维·服务器
MyCollege19991 天前
以UEFI模式从U盘安装centos遇到空间不足
linux·运维·centos
optimistic_chen1 天前
【Redis系列】Java操作Redis客户端
java·linux·redis·客户端·服务端