关键词:目标文件、ELF、section、segment、readelf、objdump
适合:想真正搞懂"编译/链接在干啥"的你,话不多说,我们正式开始啦
1.为什么你一改代码不用全量重编?
在 Linux 下,我们常用 gcc 把源码编译成目标文件(.o),再把多个 .o 链接成可执行程序。一个很实际的好处是:改了哪个源文件,只需要重编它对应的 .o,不必把整个工程重来一遍
最典型的演示是两个源文件:
-
hello.c里调用run() -
code.c里定义run()
hello.c代码
cpp
#include <stdio.h>
int main()
{
printf("hello linux\n");
func();
}
code.c代码
#include <stdio.h>
void func()
{
printf("hello func\n");
}
分别编译:
gcc -c hello.c gcc -c code.c ls # code.o hello.o
此时 .o 就是"目标文件"。你可以用 file 看它是什么类型:
file hello.o # ELF 64-bit LSB relocatable...
目标文件本质是 ELF 的一种形式:可重定位文件(Relocatabl e)
2.ELF 到底是啥?别怕,它就是"二进制的收纳盒"
ELF(Executable and Linkable Format)不止可执行文件才用,常见四类都属于 ELF:
-
.o:可重定位文件 -
可执行文件:Executable
-
.so:共享目标文件(动态库) -
core dump:内核转储文件
理解 ELF 的关键不是背字段,而是抓住它的两个"视角":
视角 A:链接视图(Linking view)------按"节 section"看
链接器更关心 section:.text/.data/.rodata/.bss/.symtab 等等。比如:
-
.text:机器指令(代码) -
.data:已初始化的全局/静态变量 -
.rodata:只读常量,比如字符串 -
.bss:未初始化的全局/静态变量占位 -
.symtab:符号表(函数名/变量名等的记录)
查看 section:
readelf -S a.out
视角 B:执行视图(Execution view)------按"段 segment"看
操作系统加载程序时,更关心 segment(段)。段是加载单位:哪些要映射进内存、权限是什么(R/W/X),这些信息记录在 Program Header Table 里。
查看 segment:
readelf -l a.out
你会看到典型的 LOAD 段:
-
一段通常是 R E (可读可执行):装
.text等 -
一段通常是 RW (可读可写):装
.data/.bss/.got等
3.为什么要把 section 合并成 segment?
一句话:为了省内存、方便权限管理。
如果 .text、.init 等小节各占一页(比如 4KB),碎片会非常多;合并成 segment 后能减少浪费。同时把"可执行"和"可写"等权限隔离开,更安全。
4.链接到底修了什么?------"call 0" 是怎么变成正确地址的
你用 objdump -d hello.o 反汇编时,可能会看到 call 的跳转地址像"空的"(例如全 0)。原因是:编译阶段并不知道外部符号(比如 printf、另一个文件里的 run)最终会放到哪里。
那怎么解决?
靠链接阶段:链接器会根据重定位信息 与符号表把这些地址修正好。
你可以用 readelf -s 看符号表,会看到 UND(未定义):
readelf -s hello.o # ... puts UND # ... run UND
链接完成后(比如 gcc *.o -o main.exe),再看符号表会发现 run 已经有了地址,说明链接把它"对上了"。
5.把这条线串起来
-
.o是 ELF(可重定位),内部有 section 和符号等信息 -
链接阶段会:合并 section、做地址重定位、生成最终 ELF
-
运行阶段 OS 按 segment 映射到进程虚拟地址空间
-
你能用
readelf/objdump/ldd把这一切"看见"
到这里,你就不是"只会 gcc 一把梭"的选手了,下篇博客见啦~~