ARM学习（25）链接装载高阶认识

ARM学习（25）链接装载高阶认识

1、例子引出

笔者先引入几个编译链接的例子来介绍一下：

声明无效：declared implicitly？，属于编译错误还是链接错误？

编译阶段的错误，属于编译错误，因为编译器发现这个函数没有声明，声明异常
标识符/符号找不到：xxxx is undefined? undefined xxxxx? 无法解析的外部符号？属于编译错误还是链接错误?

第一个是结构体找不到 ，属于编译阶段错误，相当于类型找不到。

第二个和第三个属于链接错误，找不到对应的函数符号。
只编译不实现：会出现什么情况？编译可以通过？链接可以通过？

编译通过，链接不过，因为链接会关心函数的大小和实现。

补充例子图。
如何骗过编译器/链接器
- 骗过编译器：让编译器认为我们写的代码是OK的，可以编译通过。
- 骗过链接器：让链接器认为我们代码正常，可以链接成完整的可执行文件，比如axf。
- 通常来说，我们为了让代码运行，可以会编译链接出一个完整的axf，此时需要快速解决一些编译问题和链接问题，就需要让编译器和链接器认为我们代码是OK的，就需要快速适配，即"骗过"。
- 比如编译到一个函数test_speed()，找不到对应的函数，test_speed，此时就需要声明一下函数，然后就可以编译过**（下图1）**。
- 然后到链接的时候，发现找不到符号 ，Error: L6218E: Undefined symbol test_speed (referred from main.o)。（下图2）那么只有声明不行，需要定义一下，所以再加上一个空函数就行，此时就可以链接过。（下图3）
编译链接学习的意义：
- 帮助理解代码执行过程
- 提升代码质量（熟悉处理编译等警告）
- 优化代码性能（了解编译优化）
- 更好的跨平台开发（各个平台编译差异）
- 更深入掌握调试技巧（各自视图调试不按行）
主要有PE和ELF两种可执行文件格式

2、编译链接

整体框图，1、预处理 2、编译 3、汇编 4、链接

由下图可以看到，

C文件经过预处理可以得到.i文件，编译选项-E
.i文件经过编译可以得到汇编文件，编译选项-S
.s文件经过汇编可以得到目标文件，
.o文件经过打包，可以形成静态库.a文件，也可以经过与库文件链接形成可执行文件，后缀为out或者axf。

2.1 预处理器

预处理的主要内容有如下：

#define进行替换
处理#if #ifdef等预编译指令
展开#include
删除 // /* */
添加行号和文件名
保留Progma指令 ......

string.h 文件展开

2.2 编译

编译遵循的语法规则（个人总结）：

函数需要声明，不能重复声明
变量、结构体不能重复定义
变量函数定义需要封号结尾
定义变量数组需要指明大小，不能为负数宏与枚举不能重复声明
宏需要多行，如果多行，需要\进行链接
包含头文件的路径需要指明
需要包含正确的头文件
函数的声明和定义需要一致
If whilefor等关键字得正确使用
注释的正确使用

2.3 链接

链接：将目标文件粘贴在一起，形成可执行文件。

按.o文件进行地址排序

Main fun -> Uart1Init fun Main fun -> UartPoll fun
每个目标文件为一个section
目标文件中首个函数地址均从0开始
根据链接顺序，依次向后排
向后排的大小按照目标文件所有函数的大小
后面的符号地址确定后会在前面地址进行修正

按section进行地址排序（设置了分割section 属性，将每个函数进行section分割）

Main fun -> Uart1Init fun
Main fun -> UartPoll fun
目标文件每个函数为一个section
函数地址均从0开始
根据链接顺序，依次向后排
想后排的大小按照函数的大小
后面的符号地址确定后会在前面地址进行修正

3、目标文件的认识

3.1 简介

目标文件：以.o或者.obj文件结尾，是可重定位文件（下图1中 REL（Relocatable file））。

包括了代码和数据（下图2）
入口地址为0 （下图1）
包括多个section/Segment （下图2）
Section中包含符号表/重定位表（下图3）
可以被用来链接成可执行文件或者共享库文件
遵循ELF文件格式

下图中有365个段，包括了bss以及data段以及重定位段等。

Section：链接视图中的段
Segemnt：装载视图中的段，合并一定相同属性的段

由下图可以看到Section中定义的段，到了Segment里面，代码都合并成了一段。

比如ER_IROM1 、ER_REGION_HEADER、ER_IROM2 合并了，

这样的好处可以减少段零散，节省内存，同时加载相对简单，不需要每个section都去分散加载。

3.2 目标文件分析

目标文件分析：分割section

分割section的意思，按函数分割为一个段，

UART1Init：Section10，Size 208 Byte，重定位后的地址0x08004C5C（下图1），

UART1Poll：Section11，Size 176Byte，重定位后的地址0x08004D2C（下图1），恰好相差0xD0，也就是208Byte（下图2）。

结论：目标文件确定后，其大小则确定，即链接器按照地址和size依次向后排列，确定地址。

从下图4也可以看出，最终的可执行文件指令代码和目标文件形成的指令代码是一致的 。

图1

图2

图3

图4
目标文件分析：文件为section

Uart.o 为一个section，内部函数按顺序地址递增，然后文件之间进行地址排序

Uart.o wifi.o：地址0x08007E68 -- 0x08009004（下图2），相差0x119C（4508个byte）（下图3），

结论：目标文件确定后，链接器按照文件地址和size依次向后排列，确定地址，同时size增大（44280 -> 62128）下图5。

图1

图2

图3

图4

图5

3.3 目标文件重定位

目标文件重定位表：记录着哪些位置的值链接器需要进行重定位

表结构：两个成员，一个offset，一个type

c 复制代码

typedef struct rel_table_struct
{
      u32 offset;
      u32 type;
}rel_table_t;

可能是数据重定位，也可能是函数重定位

下图1 可以看到是一个重定位表，第一个是函数重定位，其type类型是 R_THM_CALL，符号是DMA_Get_CurrDataCounter
下图1中其他是数据，Type是R_ARMC_ABS32，
图2 可以看到UART1Poll函数，其数据地址都是0，重定位后，图2可以看到都有了相应的地址。

图1

图2

图3

函数地址进行重定位

目标文件中的BL指令F7FFFFFE，经过重定位后，变成F7DFFE94
BL的修改规则，是通过BL的ARM 指令编码表来计算的，如下图2。例如知道知道当前地址和编码后的指令代码，就可以知道跳转的地址（下图3和图4），当然如果知道当前地址以及跳转地址，可以推断出修订指令编码值。
函数跳转地址实现如下面代码所示，根据ARM BL指令编码表，然后计算出S、J1和J2，imm1和imm2，最后再组装在一起，形成最后的值。

图1

图2

图3

图4

c 复制代码

        int it,pc,offset = 0;
        printf("please input Intruction:\r\n");
        scanf("%x", &it);
        printf("please input pc:\r\n");
        scanf("%x", &pc);

        int S = (it & 0x04000000) >> 26;
        int J1 = (it & 0x00002000) >> 13;
        int J2 = (it & 0x00000800) >> 11;

        int I1 = (~(J1 ^ S))&0x1;
        int I2 = (~(J2 ^ S))&0x1;

        int imm10 = (it & 0x03FF0000) >> 16;
        int imm11 = (it & 0x000007FF);
        if(S == 1)
        {
            offset = 0xFF000000;
        }
        offset |= (S<<24);

        offset |= (I1<<23);
        offset |= (I2<<22);

        offset |= (imm10<<12);
        offset |= (imm11<<1);

        printf("jump addr=0x%x\r\n",(offset + pc + 4));

4、静态链接

4.1 空间地址分配

在链接的时候，如果形成图1的这种可执行文件，那么加载的时候，有一些劣势。

简单地址分配：

空间浪费
不利于管理
不利于加载

4.2 强弱符号和修饰

强符号、弱符号与符号修饰：__weak 或者 attribute ((weak))
符号：函数和变量，链接器接口
符号名：函数名和变量名
强符号：只允许存在一个
弱符号：允许存在多个（weak修饰）
符号修饰：符号名根据特定规则进行修改
extern "C"：将函数名按照C语言中生成函数名的方式去生成。

对于弱符号，如果只定义不实现，可以编译过？链接过？能执行吗？

可以看到能编译过，同样可以链接过，但是执行报错，地址为空，可能无法访问。

所以GCC编译器：

若符号即使没定义，也可以链接
有符号名
符号地址为空，允许出错

对于ARMCC编译器：

若符号即使没定义，也可以链接
没有符号名
函数引用指令链接成nop，可正常运行

再来说说修饰规则C++调用C：

GCC：不作任何操作
VC编译器：符号前面加"_"下划线。
不声明extern "C"情况：按照C++的函数命名去修饰

修饰规则C++：
GCC：N或者_N开头，.........
VC编译器：??或者?开头，.......

4.3 链接与ABI接口

链接与ABI接口：Application Binary Interface，应用程序二进制接口

API与ABI：前者为源码级别的接口（如POSIX），后者来二进制级别的接口（各大编译器无法兼容的原因，就是ABI不同，比如GCC和VC编译器，C++标准都一样，但是ABI不同，导致无法互相调用）。
影响ABI的因素：C角度
- 基本类型大小以及存储方式（大小端）
- 符号修饰方面函数调用方式（入栈/返回值）
- 寄存器使用约定等
- 堆栈分布方式
影响ABI的因素：C++角度
- 继承类体系分布
- 指向成员指针内存分布
- 虚函数的调用
- 模板类的实例化
- 外部符号的修饰
- 全局对象的构造和析构
- 异常产生和捕获机制

4.4 链接过程控制与脚本语法

链接过程控制其实就是链接脚本来控制链接的过程，比如将数据分配到链接脚本指定的段。

加载视图：加载期间，代码和数据的分布情况

运行视图：运行期间，代码和数据的分布情况

存储地址：代码数据存放的位置

加载地址：代码数据加载到内存中（执行代码）的地址

执行地址：代码数据真正执行的地址

来看一个加载过程，具体可参考【Bootloader学习理解学习--加强版】。

链接脚本语法，如下面两张图所示。