HNU2026-计算机系统-笔记 5 汇编进阶

5 汇编进阶

5.1 过程调用与栈帧机制

过程（Procedure）是软件抽象中至关重要的一环，它封装了代码并提供指定的接口。在不同的编程语言中，过程可能被称为函数（Function）、方法（Method）或子例程（Subroutine）。为了支持过程调用，指令集体系结构（ISA）必须提供控制转移、状态保存与恢复、参数传递以及局部变量分配的机制。

5.1.1 运行时栈与栈帧

x86-64 架构利用 运行时栈 （Runtime Stack）来支持过程调用。机器使用栈来传递过程参数、存储返回信息、保存寄存器以供以后恢复，以及进行局部存储。栈作为一种后进先出（LIFO）的数据结构，其生长方向在 x86-64 中是向低地址方向生长的。

当一个过程被调用时，系统会在栈上为其分配一块连续的内存区域，称为栈帧（Stack Frame）。每个未完成的过程调用都对应一个独立的栈帧。

当前栈帧 ：位于栈顶，由栈指针寄存器 %rsp 指示其底部（最低地址处）。
帧指针（可选） ：在早期的 x86 架构中，通常使用 %rbp 作为帧指针指示栈帧的顶部。但在现代 x86-64 编译器优化中（如 GCC 的 -fomit-frame-pointer），若栈帧大小在编译时可确定，通常省略帧指针，完全通过相对于 %rsp 的偏移量来寻址局部变量。

架构定理：过程调用的嵌套深度仅受限于虚拟地址空间中分配给运行时栈的最大连续内存容量。

5.1.2 控制转移

控制转移是过程调用的核心。将控制从函数 P 转移到函数 Q 只需要把程序计数器（%rip）设置为 Q 的起始地址。但是在 Q 结束时，处理器必须记录并恢复 P 的执行位置。

call Label 指令：执行时，首先将被调用过程返回后应执行的下一条指令地址（即 返回地址 ，Return Address）压入运行时栈，随后跳转到 Label 指定的地址。
ret 指令：从栈顶弹出地址，并将其加载到程序计数器 %rip 中，从而实现控制流的返回。

5.1.3 数据传送与参数传递

x86-64 架构在过程调用时，优先采用寄存器传递参数，以最大化降低访存延迟。

寄存器传参 ：最多可以通过 6 个通用寄存器传递整型或指针参数。其顺序严格规定为：%rdi, %rsi, %rdx, %rcx, %r8, %r9。
栈传参：如果一个函数有超过 6 个整型参数，超出的部分将被分配在调用者（Caller）的栈帧中。第 7 个参数位于栈顶，第 8 个紧随其后（地址递增）。所有的栈上参数必须按 8 字节对齐。

函数返回值默认存储在 %rax 寄存器中。

5.1.4 局部存储与寄存器保护约定

并非所有的数据都能存储在寄存器中。当局部变量满足以下条件时，必须在内存（栈）中分配：

寄存器数量不足以存放所有局部数据。
对局部变量使用了地址操作符 &，必须为其生成内存地址。
局部变量是数组或结构体，必须通过数组引用或记录引用被访问。

在多层过程调用中，为防止被调用者（Callee）覆盖调用者（Caller）稍后还需要使用的寄存器值，x86-64 制定了严格的寄存器使用约定：

调用者保存 （Caller-saved）寄存器：如 %r10, %r11 以及传参寄存器。被调用者可以随意修改这些寄存器。调用者若希望在调用后继续使用这些值，必须在执行 call 之前自行将其压栈保存。
被调用者保存 （Callee-saved）寄存器：如 %rbx, %rbp, %r12~%r15。被调用者若需使用这些寄存器，必须在修改前将其原始值压入栈中，并在执行 ret 前从栈中弹出恢复。

5.2 数组的分配与访问

C 语言中的数组是一种将标量数据聚合成更大逻辑单位的手段。在机器级代码中，数组被转化为对连续内存字节的访问。

5.2.1 基本原则与指针运算

对于数据类型 T 和整型常数 N，声明 T A[N] 具有以下底层语义：

在内存中分配一个 L × N L \times N L×N 字节的连续区域，其中 L L L 是数据类型 T 的字节数。
引入标识符 A，其可作为指向该连续区域起始位置的指针，值为 x A x_A xA。

访问数组元素 A[i] 的机器级操作依赖于 指针寻址 比例计算。数组元素 i i i 的内存地址计算公式为：
Address ( A $i$ ) = x A + L × i \text{Address}(A $i$ ) = x_A + L \times i Address(A $i$ )=xA+L×i

x86-64 的内存操作数寻址模式天然支持这种比例计算。例如，若 %rdx 存储了基址 x A x_A xA，%rcx 存储了索引 i i i，且元素类型为 int（ L = 4 L=4 L=4），则访问 A[i] 的汇编指令为：

assembly 复制代码

movl (%rdx,%rcx,4), %eax

5.2.2 嵌套数组与多维数组

对于多维数组 T D[R][C]，内存分配遵循 行优先 （Row-major）原则。它被视为一个包含 R 个元素的数组，每个元素本身又是一个包含 C 个元素的数组。

分配的内存总大小为 R × C × L R \times C \times L R×C×L 字节。

访问二维数组元素 D[i][j] 的地址计算公式为：
Address ( D $i$ $j$ ) = x D + L × ( C × i + j ) \text{Address}(D $i$ $j$ ) = x_D + L \times (C \times i + j) Address(D $i$ $j$ )=xD+L×(C×i+j)

编译器通常会利用移位运算和 leaq（加载有效地址）指令来优化上述乘法和加法运算，避免使用高延迟的 imul 指令。

5.3 异质数据结构与对齐

现代编程语言允许将不同类型的数据组合在一起。C 语言提供了 struct（结构体）和 union（联合体）两种主要机制。在汇编级别，这些高级抽象不复存在，全部退化为连续内存块及其偏移量计算。

5.3.1 结构体（Struct）

结构体将不同类型的数据对象打包成一个整体。编译器在编译时维护每个结构体的信息，计算每个字段相对于结构体起始位置的 字节偏移量 （Byte Offset）。

机器级代码通过加上适当的偏移量来访问结构体的各个字段，处理器自身并不理解结构体的布局。

5.3.2 数据对齐（Data Alignment）

计算机系统对基本数据类型的内存地址施加了特定的限制，要求某种类型对象的地址必须是某个值 K K K（通常是 1、2、4 或 8）的倍数。这种对齐限制统称为 数据对齐 。

硬件设计哲学：对齐要求主要是基于总线和内存接口的物理特性。如果数据未对齐，处理器可能需要执行多次内存总线周期才能取出一个数据对象，从而严重拖慢系统吞吐量。对齐能够保证处理器单周期访存的原子性与高效性。

x86-64 下的典型对齐规则：

1 字节：char（无限制）
2 字节：short
4 字节：int, float
8 字节：long, double, 指针

为了满足对齐要求，编译器会在结构体字段之间插入未使用的 填充字节 （Padding，内部碎片），并在结构体末尾添加填充（外部碎片），以确保结构体数组中每个元素的基址都满足最严格的对齐要求。
优化技巧：在定义结构体时，按数据类型大小从大到小排列字段，可以最大限度地减少内存填充，降低内存消耗。

5.3.3 联合体（Union）

联合体允许以不同的数据类型引用同一块连续的内存区域。

一个联合体的总大小等于其最大字段的大小（并满足相应的对齐约束）。

联合体常用于硬件层面的位掩码转换、底层协议解析或构建互斥的抽象语法树（AST）节点。在汇编层面，联合体内的所有字段共享完全相同的基地址。

5.4 内存越界访问与执行安全

在 C 语言及其底层机器级表示中，不进行任何数组边界检查。局部变量和状态信息（如保存的寄存器值和返回地址）共同驻留在栈中。这种紧密的内存布局引发了严重的计算机系统安全漏洞。

5.4.1 缓冲区溢出漏洞

缓冲区溢出 （Buffer Overflow）是系统安全中最经典的漏洞范式。当程序向栈中分配的字符数组（缓冲区）写入的数据长度超过其实际大小时，多余的数据将越界覆盖栈上相邻的内存区域。

最致命的情况发生在其覆盖了栈帧顶部的返回地址 。当包含漏洞的函数执行 ret 指令时，它将从栈中弹出一个被攻击者恶意构造的地址，并将控制流重定向到不可预期的代码区域（通常是攻击者通过注入的 Exploit Payload，如 Shellcode）。

典型的危险函数包括 strcpy, strcat, sprintf, 以及早期的 gets。

5.4.2 现代对抗与防御机制

为了应对缓冲区溢出，现代编译器和操作系统引入了三层核心防御机制：

地址空间布局随机化 （ASLR）

每次程序运行时，操作系统随机决定栈区、堆区、共享库和代码段的起始物理/虚拟地址。这使得攻击者难以预测目标缓冲区和 Shellcode 的确切内存地址，破坏了固定地址劫持的可用性。
栈破坏检测 （Stack Canaries / Guard）

由 GCC 的 -fstack-protector 引入。编译器在局部缓冲区和被保存的寄存器/返回地址之间，插入一个随机生成的保护值（Canary，金丝雀值）。

在函数返回前，系统会校验该 Canary 值是否被修改。由于字符串越界写入必然是连续覆盖的，任何企图覆盖返回地址的操作都会破坏 Canary。一旦发现修改，程序立即调用 __stack_chk_fail 主动异常终止。
实现细节 ：在 Linux x86-64 中，Canary 通常存储在段寄存器 %fs 偏移 40 的位置（%fs:40），这使得攻击者难以通过常规指针读取。
限制可执行代码区域 （NX Bit）

传统体系结构中，可读内存通常也是可执行的。现代 x86-64 处理器引入了 NX（No-Execute）标志位（在页表项中）。操作系统借此将栈区和堆区标记为"可读写但不可执行"。即使攻击者成功将恶意代码注入栈中并劫持了控制流，处理器在尝试执行栈上指令时也会触发保护故障（Protection Fault）。
对抗手段演进 ：为了突破 NX 位，攻击者发展出了 面向返回编程 （ROP, Return-Oriented Programming）技术，通过链接已存在于代码段（如 libc）中的代码片段（Gadgets）来执行任意逻辑。

5.5 浮点代码的机器级表示

处理浮点数引入了特殊的体系结构要求，超出了传统的整数处理范围。现代 x86-64 处理器主要使用基于向量寄存器的指令集扩展（如 SSE、AVX、AVX2 和 AVX-512）来处理浮点运算。

5.5.1 浮点寄存器与数据移动

现代浮点架构（以 AVX2 为例）提供了一组 16 个 YMM 寄存器（%ymm0 到 %ymm15），每个寄存器宽 256 位（32 字节）。当对标量（非向量）数据进行操作时，只使用这些寄存器的低 32 位（单精度 float）或低 64 位（双精度 double）。标量寄存器名称采用 XMM 前缀（%xmm0 ~ %xmm15）。

数据在内存和浮点寄存器之间移动的典型指令：

vmovss：移动标量单精度（Single Precision Scalar）
vmovsd：移动标量双精度（Double Precision Scalar）

5.5.2 浮点运算与控制流

浮点运算指令的命名规则与数据传送类似，通常包含指明精度的后缀。例如 vaddss（单精度加法）、vmulsd（双精度乘法）。

需要注意的是，浮点指令通常有三个操作数：两个源操作数和一个目的操作数，例如：

assembly 复制代码

vaddsd %xmm1, %xmm2, %xmm0  # 将 xmm1 和 xmm2 中的双精度值相加，结果存入 xmm0

对于过程调用，浮点参数通过 %xmm0 到 %xmm7 这 8 个寄存器传递，返回值存储在 %xmm0 中。

在进行浮点数比较时，x86-64 提供 vucomiss 和 vucomisd 指令。与整数 cmp 指令类似，它们通过设置条件码寄存器（Condition Codes）中的零标志位（ZF）、进位标志位（CF）和奇偶标志位（PF）来指示比较结果。值得注意的是，如果比较中涉及到特殊的 NaN（非数字）值，PF 标志位将被设置为 1，从而支持对无序浮点状态的判断。

本节小结

过程调用机制 ：x86-64 通过运行时栈实现过程调用，call 压入返回地址并跳转，ret 弹出返回地址并恢复控制流。栈帧为每个活跃的过程调用提供独立的存储空间。
参数传递 ：前 6 个整型/指针参数依次通过 %rdi、%rsi、%rdx、%rcx、%r8、%r9 传递，超出部分通过栈传递；返回值存于 %rax。
寄存器保护约定 ：被调用者保存寄存器（%rbx、%rbp、%r12~%r15）在被修改前必须压栈保护；调用者保存寄存器由调用者自行负责。
数组访问 ：编译器利用基址 + 比例因子寻址模式（如 (%rdx,%rcx,4)）高效访问数组元素，多维数组按行优先存储。
结构体与对齐：结构体字段按偏移量访问，编译器插入填充字节以满足对齐要求；联合体所有字段共享同一基地址。
缓冲区溢出与防御：栈上缓冲区越界可覆盖返回地址，现代系统通过 ASLR（地址随机化）、Stack Canary（栈金丝雀）和 NX bit（不可执行位）三层防御机制应对。
浮点代码 ：x86-64 使用 XMM/YMM 向量寄存器处理浮点运算，浮点参数通过 %xmm0~%xmm7 传递，返回值存于 %xmm0。