linux之arm SMMUv3 故障和错误(4)

1.概述

SMMU有三种方式将故障和错误(Faults and Errors)报告给软件,具体如下:

  1. 提交给SMMU命令在某些情况下不正确时,命令队列有机制报告这些错误。
  2. 事件队列中记录了一些错误和故障。包括了来自设备流量(traffic)引起的错误和故障,比如配置错误或者设备地址引起的缺页异常。
  3. 一种基于全局寄存器的SMMU_GERROR机制用于上报以下情况引发的事件:当无法将记录写入事件队列或PRI队列时,以及其他无法写入内存的灾难性事件。这种情况可能发生在事件队列指针错误的指向不存在的内存,或发生队列溢出的情况下。

2.命令队列错误

命令队列中的消费者读指针寄存器如下图所示,RD保存命令队列读取索引,ERR保存错误码。当有命令错误时,SMMU会将错误码保存到ERR区域,同时触发SMMU_GERROR.CMDQ_ERR中断,通知CPU处理。

位域 名称 意义
[19:0] RD 命令队列读取索引。该位域分为两个部分,具体由配置的命令队列大小决定。 Bit[QS]: RD_WRAP - 队列读取索引掉头从头开始的标志。 Bits[QS-1:0]: RD - 命令队列读取索引。 QS == SMMU_CMDQ_BASE .LOG2SIZE and SMMU_CMDQ_BASE .LOG2SIZE <= SMMU_IDR1.CMDQS <= 19.
[30:24] ERR 错误码。当检测到命令执行错误,ERR保存命令执行错误的错误码,同时触发SMMU_GERROR.CMDQ_ERR中断。 0x00 : CERROR_NONE,没有错误发生 0x01 : CERROR_ILL,非法的命令,如命令opcode不正确,命令有效但使用了保留区域或者无效的值 0x02 : CERROR_ABT,读取命令失败,比如读取命令时发生外部错误,导致读取终止 0x03: CERROR_ATC_INV_SYNC,ATS Invalidation完成超时

命令队列中的命令按顺序执行,当有检测到命令错误或者命令预取失败时:

  1. SMMU会停止执行命令
  2. 错误命令之前的命令将会被执行
  3. SMMU_(*_)CMDQ_CONS.RD依旧指向错误命令的位置
  4. SMMU将错误码更新到SMMU_(*_)CMDQ_CONS.ERR区域
  5. 触发SMMU_(*_)GERROR .CMDQ_ERR中断,此时SMMU不会执行命令队列中的命令
  6. 比错误命令更新的命令不起作用,如果SMMU已经读取该命令,则会丢弃该命令
  7. 当发生命令队列错误时,ARM推荐软件先修复命令队列错误,然后通过向SMMU_()GERRORN写入合适的值响应CMDQ_ERR,最终达到重启命令队列的目的。软件不需要写SMMU(_)CMDQ_PROD来重新触发命令处理。

3.事件队列记录的故障类型

事件队列记录三种类别的事件:

  1. Configuration errors
    1. 配置错误是由不正确的寄存器、STE或CD内容引起的,并且与传入的事务地址转换有关。在响应事务之前,不会报告内存中的不正确配置。任何传入的事务最多可能导致一个事件报告,该报告可能是一个配置错误,或者如果配置全部有效,则可能是几种类型的事务地址转换故障之一(可能适用于阶段1或阶段2)。
  2. Faults from the translation process
    1. 只有当事务地址尝试转换时,才会报告转换错误。SMMU的实现可能会以实现特定的方式预取配置项和TLB条目。预取的错误配置不会记录配置错误(即使是为了响应显式的CMD_PREFETCH_*命令而预取),只有在收到事务时,才会记录转换故障或配置错误。
  3. Miscellaneous
    1. 杂项事件(例如E_PAGE_REQUEST)的记录与传入的数据事务异步进行。
    2. Event queue记录的事件参考 ARM SMMUv3 命令和事件队列 (SMMU 手册3.5节 )。

4.全局错误

当有全局错误发生时,SMMU会产生中断通知软件处理。软件通过SMMU_(**)GERROR寄存器获取全局错误类型,而不是基于内存的事件队列。SMMU中总共定义了10种全局错误,SMMU*(*_)GERROR寄存器中每一个bit对应一种全局错误,具体如下图所示。

SMMU_(*_)GERROR表示的全局错误如下表所示。

位域 错误标记 意义
[0] CMDQ_ERR 命令队列错误
[2] EVENTQ_ABT_ERR 事件队列访问中止。当EVENTQ_ABT_ERR设置时,SMMU将停止向事件队列中记录事件。
[3] PRIQ_ABT_ERR PRI队列访问中止。当PRIQ_ABT_ERR设置时,SMMU将停止向事件队列中记录事件。
[4] MSI_CMDQ_ABT_ERR CMD_SYNC触发的MSI写入中止(若支持MSI中断)。
[5] MSI_EVENTQ_ABT_ERR 事件队列触发的MSI写入中止(若支持MSI中断)。
[6] MSI_PRIQ_ABT_ERR PRI队列触发的MSI写入中止 (Non-secure GERROR only)(若支持MSI中断)。
[7] MSI_GERROR_ABT_ERR GERROR触发的MSI写入中止(若支持MSI中断)。
[8] SFM_ERR SMMU进入Service Failure Mode。该错误在SMMU_GERROR和SMMU_S_GERROR寄存器中的意义相同。
[9] CMDQP_ERR 命令队列控制页错误(control page error)。适用于增强型命令队列(Enhanced Command queue),增强型命令队列拥有256 Command queue control pages,每个control pages最多拥有256个队列,适用于复杂系统。
[10] DPT_ERR

SMMU_(*_)IRQ_CTRL .GERROR_IRQEN == 1时将会打开全局中断,当有全局错误发生时,SMMU会触发全局中断。

5.故障模式

故障模式(Fault models)表示SMMU对错误的处理方式,有两种模式,分别是Terminate model和Stall model 。Fault models配置为Terminate model时,当有错误发生时,SMMU会向client device返回错误并立即终止事务。Fault models配置为Stall model时,当有错误发生时,SMMU会以RAZ/WI的方式响应client device,此时client device会认为事物成功了,感觉不到错误,SMMU也不会处理错误事务,会把错误的信息记录到事件队列中,软件可以通过发送CMD_RESUME or CMD_STALL_TERM命令重启事务或者终止事务。

5.1.配置

第一阶段地址转换的Fault models通过CD.{A,R,S}标志配置,第二阶段地址转换的Fault models通过STE.{S2R,S2S}标志配置。CD.{A,R,S}和STE.{S2R,S2S}控制下面错误的Fault models。下面的错误都和事务地址转换相关。

  • F_TRANSLATION.
  • F_ACCESS.
  • F_ADDR_SIZE.
  • F_PERMISSION.
    下面是A、R、S三个标志的意义:

|---|---------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| A | 事务终止时的中止行为(Abort behavior upon transaction termination) | 1. 当A==1时,当事务以地址转换相关的4种错误终止时,SMMU会向client device返回abort和bus error。 2. 当A==0时,事务都会以RAZ(Read As Zero)/WI(Write Ignored)行为成功完成,就算有错误发生,client device都不会收到错误。 3. A标志只存在第一阶段地址转换中,第二阶段地址转换将以abort终止,相当于A==1。 4. 有些SMMU可能只实现了abort termination(不支持RAZ/WI),可以通过 SMMU_IDR0.TERM_MODEL获取SMMU对Fault models的支持情况。在这种情况下,配置CD.A == 0会导致CD描述符无效。 5. A标志不影响ATS转换请求引发的错误,因为ATS不支持RAZ/WI行为。 |
| R | 记录事件(Record event) | 1. 当R==1时,SMMU检测的错误事件将会记录到事件队列中。 2. 当R==0时,SMMU检测的错误事件不会记录到事件队列中。 3. R标志只会影响当S==0且是和地址转换相关的四种错误。 |
| S | 遇到故障时停止运行(Stall upon fault ) | 1. 当S==1时,当发生和地址转换相关的4种错误时,会进入Stall model,在软件发出resume或terminate命令之前,不会对事务作出响应,因此事务要么被重试,要么被终止。 2. 当S==1时,发生错误时的行为由A标志决定。 |

下面是ARS三个标志组合起来表示的意义。

ARS 意义
0b000 静默地终止SMMU上的事务,并且会以RAZ/WI成功的响应事务
0b010 以RAZ/WI的方式终止事务,并且会将错误事务记录到事件队列中
0bxx1 Stall model,会将错误记录到事件队列中,软件可以通过发送CMD_RESUME or CMD_STALL_TERM命令重启事务或者终止事务
0b100 静默的将事务中止报告client device
0b110 将事务中止报告client device,并且会将错误事务记录到事件队列中
5.2.故障处理流程

SMMU检测到Fault时的处理流程如下图所示。

相关推荐
行初心6 小时前
uos基础 systemctl 查看unit的详细配置
运维
eyuiomvtywn7 小时前
阿里云DNS解析Vercel部署项目的域名
运维·服务器·阿里云
4t4run7 小时前
25、Linux 特殊权限
linux·运维
S***y3967 小时前
DevOps监控告警体系
运维·devops
氵文大师8 小时前
A机通过 python -m http.server 下载B机的文件
linux·开发语言·python·http
HUT_Tyne2658 小时前
Linux 快速入门
linux·运维·服务器
leoufung8 小时前
逆波兰表达式 LeetCode 题解及相关思路笔记
linux·笔记·leetcode
鸠摩智首席音效师8 小时前
如何在 Linux 中使用 dd 命令 ?
linux·运维·服务器
一夜空中最亮的星一8 小时前
【Linux】ubuntu24.04 安装docker
linux·docker·eureka
赖small强9 小时前
【Linux 网络基础】libwebsockets 技术文档
linux·网络·https·tls·lib·websockets