了解 RISC-V IOMMU

了解 RISC-V IOMMU

个人作为 IOMMU 初学者,从初学者的角度介绍我眼中 RISCV 的 IOMMU

如果有些描述不够专业,还请谅解,也欢迎讨论

部分内容来自 https://zhuanlan.zhihu.com/p/679957276(对于 RISCV IOMMU 规范手册的翻译,推荐前往此链接查找更详细的内容),同时增加了部分自己的理解

如侵删

一、IOMMU 的背景

输入输出内存管理单元 (IOMMU),有时也称为系统 MMU (SMMU),是一个系统级内存管理单元 (MMU),用于将具有直接内存访问(DMA)功能的输入/输出 (I/O) 设备连接到系统内存

没有 IOMMU 时:

  1. 非虚拟化的情况下,IO 设备得到的是物理地址,在进行 DMA 时可能破坏其他的设备或者系统内存

  2. 虚拟化的情况下,Guest OS 不能直接访问 PA,每次 DMA 操作都要陷入到 VMM 为 I/O 设备分配物理内存

有 IOMMU 时:

  1. 使得设备 DMA 更加安全,可以限制设备能够访问的物理内存
  2. 地址转换 IOVA -> PA,可以支持连续的 IOVA,非连续的 PA,可以利用物理内存中分散的页
二、IOMMU 在 SOC 中的位置

以 Spec 中的图5为例,该 SOC 集成了内存控制器和多个 IO 设备,还集成了两个 IOMMU 实例。

设备可以直接连接到 IO Bridge 和系统互连,也可以在需要将 IO 协议事务转换为系统互连事务时通过 Root Port 连接

第一个 IOMMU 实例 IOMMU 0(与 IO Bridge 0 相关联)将一个 Root Port 连接到系统结构/互连(Root Port 是一个 PCIe 端口),一个或多个终端设备通过该 Root Port 与 SoC 连接。

第二个IOMMU 实例 IOMMU 1(与 IO Bridge 1 相关联)说明了在不使用 Root Port 的情况下将设备(IO 设备 A 和 B)连接到系统架构的情况。

IO Bridge 位于设备和系统互连之间,用于处理 DMA 事务,IO 设备可使用 IO 虚拟地址(VA、GVA 或 GPA)执行 DMA 事务,IO Bridge 调用相关的 IOMMU,将 IOVA 转换为监控器物理地址 (SPA)。

Host interface :它是连接 IOMMU 的接口,供 Harts 访问其内存映射寄存器,并执行全局配置和/或维护操作

Data structure interface :它被 IOMMU 用于隐式访问内存。用于从主内存中获取所需的数据结构

Device Translation Request:从 IO Bridge 接收转换请求。在此接口上,IO Bridge 提供有关请求的信息。

Device Translation Completion:用于提供 IOMMU 对先前请求的地址转换的完成响应。

**ATS **:如果 IOMMU 支持可选的 PCIe ATS 功能,则 ATS 接口用于通过 PCIe Root Port 与具有 ATS 功能的 EP(Endpoint,即 PCIe 设备) 通信。

三、IOMMU 导言

节选出了我认为有助于理解 IOMMU 的部分

对于通过 IOMMU 连接到系统的每个 I/O 设备,软件都可以在 IOMMU 上配置设备上下文 ,将特定的虚拟地址空间和其他针对设备的参数与设备关联起来。通过在 IOMMU 为每个设备提供独立的设备上下文,可以为每个设备单独配置一个操作系统,这个操作系统可以是 Guest OS,也可以是主(主机)操作系统。在设备发起的每一次内存访问中,IOMMU 都会通过某种形式的唯一设备标识符来识别发起访问的设备,然后IOMMU 会使用该标识符在软件提供的数据结构中找到相应的设备上下文。本规范将这种唯一的设备标识符称为 device_id,并支持多达 24 位宽的标识符。

某些设备可能支持共享虚拟寻址,即与设备共享进程地址空间 的功能。为支持此类寻址,软件可将一个或多个进程上下文配置到设备上下文中。此类设备启动的每次内存访问都会伴随一个唯一的进程标识符,IOMMU 将该标识符与唯一的设备标识符结合使用,以定位软件在设备上下文中配置的适当进程上下文 。例如,对于 PCIe,进程上下文可由唯一的 20 位进程地址空间标识符 (PASID) 标识。本规范将此类唯一进程标识符称为 process_id,并支持多达 20 位宽的标识符。

IOMMU 采用两阶段地址转换 流程,将 IOVA 转换为 SPA,并对 DMA 实施内存保护。为了执行地址转换和内存保护,IOMMU 在第一阶段和第二阶段地址转换中使用与 CPU 的 MMU 相同的页表格式。使用与 CPU MMU 相同的页表格式,可以消除 DMA 在内存管理方面的一些复杂性。使用相同的格式还允许 CPU MMU 和 IOMMU 同时使用相同的页表。

IOMMU 采用的虚拟内存方案可为每个设备单独配置 IOMMU 。设备使用 I/O 虚拟地址 (IOVA) 执行 DMA。根据为设备选择的虚拟内存方案,设备使用的 IOVA 可能是 Supervisor 物理地址 (SPA)、Guest 物理地址 (GPA) 或虚拟地址 (VA)

IOMMU 中的 DMA 地址转换对 DMA 访问有一定的性能影响,因为使用软件提供的数据结构确定 SPA 所需的时间可能会延长访问时间。CPU MMU 中的类似开销通常是通过使用转换旁路缓冲器(TLB)来缓存这些地址转换,以便在后续访问中重复使用,从而减少转换开销。IOMMU 可以使用类似的地址转换缓存,即 IOMMU 地址转换缓存(IOATC)。当用于地址转换的内存驻留数据结构被修改时,IOMMU 为软件提供了使IOATC 与之同步的机制。软件可使用软件定义的上下文标识符(称为 Guest 软件上下文标识符 (GSCID))配置设备上下文,以'指示设备集合被分配给同一虚拟机',从而访问共同的虚拟地址空间 。软件可使用称为进程软件上下文标识符(PSCID)的软件定义上下文标识符配置进程上下文,以标识'共享共同虚拟地址空间的进程'集合。IOMMU 可使用 GSCID 和 PSCID 标记 IOATC 中的条目,以避免重复并简化失效操作。

四、IOMMU 的几种使用模式
1、非虚拟化 OS 的情况

对于这种情况,我的理解是:

  1. 用来做保护的,限制 DMA 能访问的物理内存区域
  2. 支持可以使用分散的物理内存区域

IOMMU 为操作系统提供了一种机制,通过限制设备可访问的内存 来防止这种意外损坏。如图所示,操作系统可通过页表配置 IOMMU,以转换 IOVA,从而将可访问的地址限制在页表允许的范围内

传统的 32 位设备无法访问超过 4 GiB 的内存。如果没有 IOMMU,操作系统就必须通过分配在 4 GiB 以下内存中的缓冲区来复制数据。

IOMMU 可用于执行分散/聚集(scatter/gather)DMA,它允许为 I/O 分配较大的内存区域,而无需所有内存都是连续的一个连续的虚拟地址范围可以映射到这些零散的物理地址,并用虚拟地址范围对设备进行编程。

IOMMU 可用于支持共享虚拟寻址,即与设备共享进程地址空间。用于 DMA 的虚拟地址由 IOMMU 转换为SPA。

当 IOMMU 被非虚拟化操作系统使用时,第一阶段足以提供所需的地址转换和保护功能,第二阶段可设置为 "Bare"。

2、Hypervisor 的情况

对于这种情况,我的理解是:

  1. Hypervisor 提供 GPA->SPA 转换,限制 Guest OS 访问的物理内存
  2. 同时也支持仅OS的情况,可以使用分散的物理内存
  3. 对于使用 MSI 中断的设备,可以借助 IOMMU 找到 VM 对应的中断文件

直接控制设备的 Guest OS 将使用 GPA 对设备进行编程。当设备使用这些地址执行内存访问时,IOMMU 就会使用 Hypervisor 提供的地址转换数据结构,负责将这些 GPA 转换为 SPA 。

为了处理由 Guest OS 控制的设备发出的 MSI,Hypervisor 会配置 IOMMU,将这些 MSI 重定向到 IMSIC 中的 Guest 中断文件(见下图)或内存驻留中断文件。IOMMU 负责使用 Hypervisor 提供的 MSI 地址转换数据结构来执行 MSI 重定向。

3、Guest OS 的情况

对于这种情况,我的理解是:

以上两种情况的结合,第一阶段地址翻译为了让 Guest OS 感知不到 Hypervisor 的存在,以为自己是一个物理机上的 OS(即第一种情况),第二阶段翻译对应以上的第二种情况

Hypervisor 可以通过硬件仿真或让 Guest OS 使用 Hypervisor 的软件接口来提供虚拟IOMMU 设施。Guest OS 可以使用虚拟 IOMMU 提供的设施,通过使用它所控制的第一阶段页表,获得与非虚拟化操作系统相同的好处。Hypervisor 会建立一个由其控制的第二阶段页表,以虚拟化虚拟机的地址空间,并包含从传递给虚拟机的设备到与虚拟机相关的内存的内存访问。

启用两阶段地址转换后,IOVA 首先使用 Guest OS 管理的第一阶段页表转换为 GPA,然后使用 Hypervisor 管理的第二阶段页表将 GPA 转换为 SPA

IOMMU 配置为使用设备 D1 的第一阶段和第二阶段页表执行地址转换。第二阶段通常由 Hypervisor 用于将 GPA 转换为 SPA,并将设备 D1 限制为与 VM-1 相关的内存第一阶段通常由 Guest OS 配置,将 VA 转换为 GPA,并将设备 D1 的访问限制在 VM-1 内存的子集上

对于设备 D2,只有第二阶段处于激活状态,第一阶段设置为 "Bare",我认为可以看作没有 OS 配置页表的情况,即看作使用没有使用虚拟地址的 RTOS 或者裸机程序。

Hypervisor 也可以保留一个设备(如 D3)供自己使用。第一阶段足以为设备 D3 提供所需的地址转换和保护功能,第二阶段设置为 "Bare",这种情况和在没有虚拟化的 OS 类似。

相关推荐
Daydreamer101 天前
学习笔记——PLCT汪辰:开发RISC-V上的操作系统(持续更新)
笔记·学习·risc-v
YHPsophie2 天前
CSM32RV20:RISC-V核的低功耗MCU芯片,常用在智能门锁上
单片机·嵌入式硬件·risc-v·智能门锁·低功耗mcu芯片
飞凌嵌入式14 天前
FET113i-S核心板已支持RISC-V,打造国产化降本的更优解 -飞凌嵌入式
嵌入式硬件·嵌入式·risc-v·飞凌嵌入式
EVERSPIN14 天前
RISC-V单片机可快充手持电钻方案分享
单片机·嵌入式硬件·risc-v
谷公子的藏经阁19 天前
RISC-V笔记——显式同步
risc-v·fence·rcpc·显示同步·synchronization
码匠许师傅21 天前
【开源鸿蒙】OpenHarmony 5.0轻量系统最小开发环境搭建
python·pip·risc-v·openharmony·gcc·1024程序员节·hi3861
谷公子的藏经阁1 个月前
RISC-V笔记——内存模型公理
risc-v·atomicity·progress·load value·axiom
谷公子的藏经阁1 个月前
RISC-V笔记——重叠地址排序
risc-v·order·重叠地址排序·rvwmo·overlapping
谷公子的藏经阁1 个月前
RISC-V笔记——内存模型总结
cpu·risc-v·内存模型·memory model·ztso
谷公子的藏经阁1 个月前
RISC-V笔记——RVWMO基本体
risc-v·release·rcpc·rcsc·acquire