Linux ELF格式与可执行程序加载全解析：从磁盘文件到运行进程

在Linux世界里，我们每天都在和各种可执行程序打交道：ls、gcc、自己编译的二进制文件......这些文件并非杂乱的机器码堆砌，而是遵循一套标准格式------ELF（Executable and Linkable Format，可执行与可链接格式）。它是Linux二进制文件的"身份证"，更是操作系统加载、运行程序的核心依据。

本文将带你吃透ELF文件结构 ，并一步步拆解可执行程序从触发执行到正式运行的完整加载流程，既有底层原理，也有实操验证，帮你彻底理解Linux程序的"诞生与启动"。

一、ELF文件：Linux二进制的标准载体

ELF并非只代表可执行程序，它是一套通用的二进制格式标准，覆盖了Linux编译、链接、运行全生命周期的文件类型。相比老旧的 a.out格式，ELF具备跨架构、可扩展、双视角解析（链接/加载）的优势，成为Unix-like系统的主流二进制格式。

实战示例：生成并查看目标文件

复制代码

// hello.c
#include<stdio.h>
void run(); // 声明外部函数
int main() 
{
    printf("hello world!\n");
    run();
    return 0;
}

// code.c
#include<stdio.h>
void run() 
{
    printf("running...\n");
}

编译生成目标文件：

复制代码

# 编译源码生成目标文件（-c：只编译不链接）
gcc -c hello.c code.c
# 查看生成的目标文件
ls -l *.o
# 验证文件类型（确认是ELF格式）
file hello.o

relocatable：表示该 ELF 文件是 "可重定位文件"（目标文件类型）；
not stripped：表示文件保留了符号表等调试信息。

1.1 ELF文件的四大类型

我们日常接触的ELF文件主要分为四类，各司其职：

可重定位文件（.o）：编译阶段生成，包含独立机器码和重定位信息，无法直接运行，需经链接器合并为可执行文件/共享库；
可执行文件（ET_EXEC）：最终运行的程序，包含完整的代码、数据和加载指引，内核可直接加载执行；
共享目标文件（.so，ET_DYN）：动态链接库，运行时被加载到内存，多个进程可共享复用，节省内存；
核心转储文件（core）：程序崩溃时生成的内存镜像，用于调试定位崩溃原因。

1.2 ELF文件的双重视角：Section与Segment

ELF文件设计最精妙的点，在于同时支持链接视角 和加载视角，通过两套结构实现分工协作：

Section（节区，链接视角）：供编译器、链接器使用，按功能拆分代码、数据、符号表、重定位信息等，比如.text（代码）、.data（初始化数据）、.bss（未初始化数据）、.symtab（符号表）；
Segment（段，加载视角）：供操作系统加载器使用，将多个相关Section打包为一个段，统一映射到内存，注重内存权限和加载地址，比如代码段、数据段。

✅️ 为什么要合并节为段？

减少内存碎片(减少空间浪费)：例如.text（4097 字节）和.init（512 字节），分开加载需 3 个 4KB 内存页，合并后仅需 2 个；

统一权限管理：相同属性的节合并后，操作系统可一次性设置权限（如所有只读节合并为一个只读段）。

实战查看段信息：

复制代码

# 查看a.out的程序头表（段信息）
readelf -l a.out

输出关键信息解读（主要是LOAD加载这个部分）：

复制代码

Program Headers:
  Type           Offset             VirtAddr           PhysAddr
                 FileSiz            MemSiz              Flags  Align
  LOAD           0x0000000000000000 0x0000000000400000 0x0000000000400000
                 0x0000000000000744 0x0000000000000744  R E    200000
  LOAD           0x0000000000000e10 0x0000000000600e10 0x0000000000600e10
                 0x0000000000000218 0x0000000000000220  RW     200000

**LOAD：**表示该段需要加载到内存；
**R E：**只读可执行（对应.text、.rodata 等节）；
**RW：**可读可写（对应.data、.bss 等节）；
**VirtAddr：**段加载到内存后的虚拟地址
下图中的A应该是R我这里就不改了

简单来说：链接看Section，加载看Segment。

1.3 ELF核心结构：从头部到加载指引

一个标准的ELF文件，由三部分核心结构组成，层层递进指引程序加载：

位于文件最开头，是ELF的"总目录"，固定长度（32位52字节、64位64字节），内核加载时首先读取这里验证文件合法性。核心字段包括：

魔数（Magic） ：前4字节固定为0x7f 45 4c 46（对应ASCII的DEL+ELF），是ELF文件的唯一标识，内核以此判断是否为合法ELF；
文件类型/架构：标明是可执行文件、动态库，以及适配的CPU架构（x86_64、ARM等）；
程序入口地址（e_entry）：程序加载后第一条指令的虚拟地址；
程序头表/节头表偏移：指向Segment和Section的位置，是加载、链接的入口。

实操查看 ：执行 readelf -h 可执行文件 即可查看ELF文件头详情。

仅对可执行文件、动态库有效，是操作系统加载程序的**"装载地图"**。它是一个数组，每个元素描述一个Segment的信息：

段类型（PT_LOAD：需加载到内存的段；PT_INTERP：动态链接器路径）；
文件偏移、虚拟内存地址、内存大小、文件大小；
内存权限（可读R、可写W、可执行X）。

实操查看 ：执行 readelf -l 可执行文件 查看程序头表（段信息）。

供链接器和调试器使用，描述每个Section的名称、类型、偏移、大小等，调试、反汇编时依赖该表。

实操查看 ：执行 readelf -S 可执行文件 查看节头表信息。

二. ELF 的生命周期：从源码到运行

ELF 文件的完整生命周期分为 "编译链接" 和 "加载运行" 两个阶段，每个阶段都有明确的核心操作：我们这里主要讲讲编译链接就可以了，运行可以继续往下看看虚拟地址空间先。

2.1 编译链接（生成可执行 ELF，研究静态链接）

无论是自己的 .o , 还是静态库中的 .o ，本质都是把.o文件进行连接的过程，所以：研究静态链接，本质就是研究 .o 是如何链接的，我们这里就不打包成静态库来研究了。
核心目标：将多个目标文件（.o）和库文件合并，修正未解析的符号地址，生成可执行 ELF。

关键步骤：

编译：gcc -c将源码（hello.c、code.c）翻译成目标文件（hello.o、code.o），每个目标文件包含独立的.text、.data 等节；
合并节：通过链接，链接器将所有目标文件的同名节合并（如所有.text 节合并为一个大的.text 节，.data 节同理）；
符号解析与重定位：链接器通过符号表（.symtab）找到未解析的符号（如 hello.o 中的 run 函数），修正其地址（指向 code.o 中 run 函数的实际位置）
生成程序头表：根据合并后的节的属性，划分段（如只读可执行段、可读可写段），写入程序头表。

实战验证重定位效果：

复制代码

# 反汇编目标文件hello.o，查看未重定位的call指令
objdump -d hello.o | grep callq
# 反汇编可执行程序a.out，查看重定位后的call指令
objdump -d a.out | grep callq

输出对比：

目标文件 hello.o 中，call 指令地址为e8 00 00 00 00（地址未修正）；
可执行程序 a.out 中，call 指令地址为e8 dc fe ff ff（地址已修正为实际函数地址）。

所以，链接过程中会涉及到对.o中外部符号进行地址重定位。

2.2 加载运行（可以暂时先不看，继续往下理解）

核心目标：操作系统根据 ELF 的程序头表，将文件加载到内存，创建进程并执行。
关键步骤：

创建进程 ：操作系统调用fork创建新进程，分配进程控制块（task_struct）和虚拟地址空间；
解析程序头表：读取 ELF 的程序头表，识别需要加载的段（LOAD 类型）；
内存映射 ：通过mmap系统调用，将 ELF 文件中的段映射到进程虚拟地址空间的对应区域（如只读可执行段映射到 0x400000 开始的地址）；
初始化内存 ：
- 为.bss 节分配内存并清零；
- 将.data 节的数据从文件复制到内存；

设置程序入口：将 CPU 的程序计数器（PC）指向 ELF 头中的入口点地址（Entry），程序开始执行。
注意：建议大家先往下看，这里我们可以暂时先不去理解，主要还是需要理解下面哪些图里面的一些逻辑过程。

三. 进程虚拟地址空间

3.1 虚拟地址的核心作用

现代操作系统都采用 "虚拟地址机制"，程序加载时使用的是虚拟地址，而非物理内存地址：

隔离进程：每个进程有独立的虚拟地址空间，互不干扰；
简化编程 ：程序编译时使用 "平坦地址空间" （从 0 开始的连续地址）(加载到内存之前在磁盘上我们系统叫它逻辑地址，加载到内存之后我们习惯叫虚拟地址(线性地址))，无需关心物理内存布局；
高效利用内存：通过页表映射物理内存，支持内存共享（如动态库）和交换（Swap）。
大家可以仔细看下下面的图示解析，有点多但都很重要

四、加载流程核心知识点总结

内核只负责加载，不负责动态链接：动态链接由用户态ld-linux.so完成，内核仅做内存映射和权限管理；
虚拟地址而非物理地址：加载时使用虚拟地址，通过页表映射到物理内存，实现内存隔离和共享；
按需加载（懒加载）：内核并非一次性将整个ELF加载到内存，而是通过缺页异常，按需加载代码和数据，节省内存；
内存权限隔离：代码段不可写、数据段不可执行，防范内存篡改、栈溢出等安全风险。

结语：

ELF格式是Linux二进制程序的基石，而加载流程则是连接磁盘文件与运行进程的桥梁。理解ELF结构，能帮我们更好地排查程序崩溃、库依赖、内存异常等问题；吃透加载流程，才能真正掌握Linux程序运行的底层逻辑。

下一篇我们将深入动态链接PLT/GOT机制 和静态链接与动态链接的优劣对比，继续拆解Linux程序运行的底层细节，敬请关注。

🔥如果你在调试ELF文件、排查加载报错时遇到问题，欢迎留言交流，我会逐一解答。