ARM汇编编程(AArch64架构)课程 - 第8章:控制流与循环

目录

    • [1. 分支指令](#1. 分支指令)
      • [1.1 无条件分支(B/BL)](#1.1 无条件分支(B/BL))
      • [1.2 条件分支(CBNZ/CBZ)](#1.2 条件分支(CBNZ/CBZ))
    • [2. 循环优化](#2. 循环优化)
      • [2.1 循环展开(LOOP Unrolling)](#2.1 循环展开(LOOP Unrolling))
      • [2.2 优化策略](#2.2 优化策略)

1. 分支指令

1.1 无条件分支(B/BL)

assembly 复制代码
B   label      ; 跳转到label处(不保存返回地址)
BL  label      ; 跳转并保存返回地址到LR寄存器(用于函数调用)
  • 特点
    • B指令不保存返回地址,适用于简单跳转
    • BL自动保存PC+4LR(x30),用于子程序调用
    • 跳转范围:±128MB(26位偏移)

1.2 条件分支(CBNZ/CBZ)

assembly 复制代码
CBZ  Wn, label  ; 当Wn==0时跳转
CBNZ Xn, label  ; 当Xn!=0时跳转
  • 应用场景
    • 循环条件检查
    • 空指针检测
    • 快速路径优化
  • 注意
    • 仅支持32/64位寄存器(Wn/Xn)
    • 跳转范围:±1MB(19位偏移)

2. 循环优化

2.1 循环展开(LOOP Unrolling)

原始循环

assembly 复制代码
mov x0, #100           ; 循环100次
loop:
  subs x0, x0, #1      ; x0--
  b.ne loop            ; 若x0!=0则继续

展开4次后的循环

assembly 复制代码
mov x0, #25            ; 100/4=25次
loop:
  subs x0, x0, #1      ; x0--
  b.ne loop            ; 实际执行4条指令/迭代

2.2 优化策略

技术 优点 缺点
部分展开 减少分支预测失败 代码量适度增加
完全展开 消除所有分支开销 显著增加代码尺寸
软件流水 隐藏指令延迟 增加寄存器压力

最佳实践

  1. 优先展开小循环(迭代次数<100)
  2. 平衡展开因子(通常4-8次)
  3. 使用PRFM预取指令减少内存延迟
  4. 结合条件执行(如CSEL)处理剩余迭代
相关推荐
AndyHeee16 天前
【SVC、PendSV(系统异常) 与 外设 IRQ 、NVIC笔记】
arm开发
暮云星影16 天前
瑞芯微rk3588利用Rockchip NPU运行大语言模型(LLM)
arm开发·人工智能·语言模型·自然语言处理
techdashen16 天前
绕过系统 ICMP:用 rawsock、Npcap 和 WMI 找到默认网卡
开发语言·arm开发·rust
ThornArmor16 天前
【工具篇·番外】跨语言生态的主权回收:基于 ISA 说明书的 4-bit 双向汇编系统全线封顶
c语言·开发语言·汇编·c++·重构·架构
振南的单片机世界16 天前
ARM中断比51快在哪?硬件压栈+NVIC集中管理
arm开发·stm32·单片机·嵌入式硬件
墨绿色的摆渡人16 天前
论文笔记(一百三十七)Learning Dual-Arm Push and Grasp Synergy in Dense Clutter
arm开发·论文阅读
暮云星影16 天前
全志linux开发屏幕适配(一)屏幕参数设置说明
linux·arm开发
是星辰吖~16 天前
WIN32_线程(下)
汇编
m0_5474866616 天前
《ARM Cortex-M4嵌入式应用技术——基于STM32F407、STM32CubeMX与Proteus》全套PPT课件
arm开发·stm32·proteus
Lanceli_van16 天前
SQLite 3.45.2(sqlite-autoconf-3450200)ARM 交叉编译完整步骤
arm开发·sqlite