linux之arm SMMUv3 故障和错误(4)

1.概述

SMMU有三种方式将故障和错误(Faults and Errors)报告给软件,具体如下:

  1. 提交给SMMU命令在某些情况下不正确时,命令队列有机制报告这些错误。
  2. 事件队列中记录了一些错误和故障。包括了来自设备流量(traffic)引起的错误和故障,比如配置错误或者设备地址引起的缺页异常。
  3. 一种基于全局寄存器的SMMU_GERROR机制用于上报以下情况引发的事件:当无法将记录写入事件队列或PRI队列时,以及其他无法写入内存的灾难性事件。这种情况可能发生在事件队列指针错误的指向不存在的内存,或发生队列溢出的情况下。

2.命令队列错误

命令队列中的消费者读指针寄存器如下图所示,RD保存命令队列读取索引,ERR保存错误码。当有命令错误时,SMMU会将错误码保存到ERR区域,同时触发SMMU_GERROR.CMDQ_ERR中断,通知CPU处理。

位域 名称 意义
[19:0] RD 命令队列读取索引。该位域分为两个部分,具体由配置的命令队列大小决定。 Bit[QS]: RD_WRAP - 队列读取索引掉头从头开始的标志。 Bits[QS-1:0]: RD - 命令队列读取索引。 QS == SMMU_CMDQ_BASE .LOG2SIZE and SMMU_CMDQ_BASE .LOG2SIZE <= SMMU_IDR1.CMDQS <= 19.
[30:24] ERR 错误码。当检测到命令执行错误,ERR保存命令执行错误的错误码,同时触发SMMU_GERROR.CMDQ_ERR中断。 0x00 : CERROR_NONE,没有错误发生 0x01 : CERROR_ILL,非法的命令,如命令opcode不正确,命令有效但使用了保留区域或者无效的值 0x02 : CERROR_ABT,读取命令失败,比如读取命令时发生外部错误,导致读取终止 0x03: CERROR_ATC_INV_SYNC,ATS Invalidation完成超时

命令队列中的命令按顺序执行,当有检测到命令错误或者命令预取失败时:

  1. SMMU会停止执行命令
  2. 错误命令之前的命令将会被执行
  3. SMMU_(*_)CMDQ_CONS.RD依旧指向错误命令的位置
  4. SMMU将错误码更新到SMMU_(*_)CMDQ_CONS.ERR区域
  5. 触发SMMU_(*_)GERROR .CMDQ_ERR中断,此时SMMU不会执行命令队列中的命令
  6. 比错误命令更新的命令不起作用,如果SMMU已经读取该命令,则会丢弃该命令
  7. 当发生命令队列错误时,ARM推荐软件先修复命令队列错误,然后通过向SMMU_()GERRORN写入合适的值响应CMDQ_ERR,最终达到重启命令队列的目的。软件不需要写SMMU(_)CMDQ_PROD来重新触发命令处理。

3.事件队列记录的故障类型

事件队列记录三种类别的事件:

  1. Configuration errors
    1. 配置错误是由不正确的寄存器、STE或CD内容引起的,并且与传入的事务地址转换有关。在响应事务之前,不会报告内存中的不正确配置。任何传入的事务最多可能导致一个事件报告,该报告可能是一个配置错误,或者如果配置全部有效,则可能是几种类型的事务地址转换故障之一(可能适用于阶段1或阶段2)。
  2. Faults from the translation process
    1. 只有当事务地址尝试转换时,才会报告转换错误。SMMU的实现可能会以实现特定的方式预取配置项和TLB条目。预取的错误配置不会记录配置错误(即使是为了响应显式的CMD_PREFETCH_*命令而预取),只有在收到事务时,才会记录转换故障或配置错误。
  3. Miscellaneous
    1. 杂项事件(例如E_PAGE_REQUEST)的记录与传入的数据事务异步进行。
    2. Event queue记录的事件参考 ARM SMMUv3 命令和事件队列 (SMMU 手册3.5节 )。

4.全局错误

当有全局错误发生时,SMMU会产生中断通知软件处理。软件通过SMMU_(**)GERROR寄存器获取全局错误类型,而不是基于内存的事件队列。SMMU中总共定义了10种全局错误,SMMU*(*_)GERROR寄存器中每一个bit对应一种全局错误,具体如下图所示。

SMMU_(*_)GERROR表示的全局错误如下表所示。

位域 错误标记 意义
[0] CMDQ_ERR 命令队列错误
[2] EVENTQ_ABT_ERR 事件队列访问中止。当EVENTQ_ABT_ERR设置时,SMMU将停止向事件队列中记录事件。
[3] PRIQ_ABT_ERR PRI队列访问中止。当PRIQ_ABT_ERR设置时,SMMU将停止向事件队列中记录事件。
[4] MSI_CMDQ_ABT_ERR CMD_SYNC触发的MSI写入中止(若支持MSI中断)。
[5] MSI_EVENTQ_ABT_ERR 事件队列触发的MSI写入中止(若支持MSI中断)。
[6] MSI_PRIQ_ABT_ERR PRI队列触发的MSI写入中止 (Non-secure GERROR only)(若支持MSI中断)。
[7] MSI_GERROR_ABT_ERR GERROR触发的MSI写入中止(若支持MSI中断)。
[8] SFM_ERR SMMU进入Service Failure Mode。该错误在SMMU_GERROR和SMMU_S_GERROR寄存器中的意义相同。
[9] CMDQP_ERR 命令队列控制页错误(control page error)。适用于增强型命令队列(Enhanced Command queue),增强型命令队列拥有256 Command queue control pages,每个control pages最多拥有256个队列,适用于复杂系统。
[10] DPT_ERR

SMMU_(*_)IRQ_CTRL .GERROR_IRQEN == 1时将会打开全局中断,当有全局错误发生时,SMMU会触发全局中断。

5.故障模式

故障模式(Fault models)表示SMMU对错误的处理方式,有两种模式,分别是Terminate model和Stall model 。Fault models配置为Terminate model时,当有错误发生时,SMMU会向client device返回错误并立即终止事务。Fault models配置为Stall model时,当有错误发生时,SMMU会以RAZ/WI的方式响应client device,此时client device会认为事物成功了,感觉不到错误,SMMU也不会处理错误事务,会把错误的信息记录到事件队列中,软件可以通过发送CMD_RESUME or CMD_STALL_TERM命令重启事务或者终止事务。

5.1.配置

第一阶段地址转换的Fault models通过CD.{A,R,S}标志配置,第二阶段地址转换的Fault models通过STE.{S2R,S2S}标志配置。CD.{A,R,S}和STE.{S2R,S2S}控制下面错误的Fault models。下面的错误都和事务地址转换相关。

  • F_TRANSLATION.
  • F_ACCESS.
  • F_ADDR_SIZE.
  • F_PERMISSION.
    下面是A、R、S三个标志的意义:

|---|---------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| A | 事务终止时的中止行为(Abort behavior upon transaction termination) | 1. 当A==1时,当事务以地址转换相关的4种错误终止时,SMMU会向client device返回abort和bus error。 2. 当A==0时,事务都会以RAZ(Read As Zero)/WI(Write Ignored)行为成功完成,就算有错误发生,client device都不会收到错误。 3. A标志只存在第一阶段地址转换中,第二阶段地址转换将以abort终止,相当于A==1。 4. 有些SMMU可能只实现了abort termination(不支持RAZ/WI),可以通过 SMMU_IDR0.TERM_MODEL获取SMMU对Fault models的支持情况。在这种情况下,配置CD.A == 0会导致CD描述符无效。 5. A标志不影响ATS转换请求引发的错误,因为ATS不支持RAZ/WI行为。 |
| R | 记录事件(Record event) | 1. 当R==1时,SMMU检测的错误事件将会记录到事件队列中。 2. 当R==0时,SMMU检测的错误事件不会记录到事件队列中。 3. R标志只会影响当S==0且是和地址转换相关的四种错误。 |
| S | 遇到故障时停止运行(Stall upon fault ) | 1. 当S==1时,当发生和地址转换相关的4种错误时,会进入Stall model,在软件发出resume或terminate命令之前,不会对事务作出响应,因此事务要么被重试,要么被终止。 2. 当S==1时,发生错误时的行为由A标志决定。 |

下面是ARS三个标志组合起来表示的意义。

ARS 意义
0b000 静默地终止SMMU上的事务,并且会以RAZ/WI成功的响应事务
0b010 以RAZ/WI的方式终止事务,并且会将错误事务记录到事件队列中
0bxx1 Stall model,会将错误记录到事件队列中,软件可以通过发送CMD_RESUME or CMD_STALL_TERM命令重启事务或者终止事务
0b100 静默的将事务中止报告client device
0b110 将事务中止报告client device,并且会将错误事务记录到事件队列中
5.2.故障处理流程

SMMU检测到Fault时的处理流程如下图所示。

相关推荐
攒钱植发4 小时前
嵌入式Linux——解密 ARM 性能优化:LDR 未命中时,为何 STR 还能“插队”?
linux·arm开发·c++·性能优化
是孑然呀4 小时前
【钉钉多元表格(自动化)】钉钉群根据表格 自动推送当天值日生信息
运维·自动化·钉钉
天外飞雨4 小时前
各传感器消息解析
linux
逐风&者4 小时前
CentsOS 7 “Could not resolve host: mirrorlist.centos.org; 未知的错误”问题解决
linux·运维·centos
路由侠内网穿透.5 小时前
本地部署网站流量分析工具 Matomo 并实现外部访问
运维·服务器·远程工作
dnpao5 小时前
在服务器已有目录中部署 Git 仓库
运维·服务器·git
大象席地抽烟5 小时前
NodeLocalDNS引起的一个域名解析问题
运维
超越自己5 小时前
远程连接银河麒麟服务器-xrdp方式
linux·运维·服务器·远程桌面·银河麒麟
sakoba5 小时前
Linux上kafka部署和使用
linux·运维·kafka