ARM学习(25)链接装载高阶认识

ARM学习(25)链接装载高阶认识

1、例子引出

笔者先引入几个编译链接的例子来介绍一下:

  • 声明无效:declared implicitly?,属于编译错误还是链接错误?

    编译阶段的错误,属于编译错误,因为编译器发现这个函数没有声明,声明异常

  • 标识符/符号找不到:xxxx is undefined? undefined xxxxx? 无法解析的外部符号?属于编译错误还是链接错误?

    第一个是结构体找不到 ,属于编译阶段错误,相当于类型找不到。

    第二个和第三个属于链接错误,找不到对应的函数符号

  • 只编译不实现:会出现什么情况? 编译可以通过?链接可以通过?

    编译通过,链接不过,因为链接会关心函数的大小和实现。

    补充例子图。

  • 如何骗过编译器/链接器

    • 骗过编译器:让编译器认为我们写的代码是OK的, 可以编译通过。
    • 骗过链接器:让链接器认为我们代码正常,可以链接成完整的可执行文件,比如axf。
    • 通常来说,我们为了让代码运行,可以会编译链接出一个完整的axf,此时需要快速解决一些编译问题和链接问题,就需要让编译器和链接器认为我们代码是OK的,就需要快速适配,即"骗过"。
    • 比如编译到一个函数test_speed(),找不到对应的函数,test_speed,此时就需要声明一下函数,然后就可以编译过**(下图1)**。
    • 然后到链接的时候,发现找不到符号 ,Error: L6218E: Undefined symbol test_speed (referred from main.o)。(下图2)那么只有声明不行,需要定义一下,所以再加上一个空函数就行,此时就可以链接过。(下图3)


  • 编译链接学习的意义:

    • 帮助理解代码执行过程
    • 提升代码质量 (熟悉处理编译等警告)
    • 优化代码性能 (了解编译优化)
    • 更好的跨平台开发 (各个平台编译差异)
    • 更深入掌握调试技巧 (各自视图 调试不按行)
  • 主要有PE和ELF两种可执行文件格式

2、编译链接

整体框图,1、预处理 2、编译 3、汇编 4、链接

由下图可以看到,

  • C文件经过预处理可以得到.i文件,编译选项-E
  • .i文件经过编译可以得到汇编文件,编译选项-S
  • .s文件经过汇编可以得到目标文件,
  • .o文件经过打包,可以形成静态库.a文件,也可以经过与库文件链接形成可执行文件,后缀为out或者axf。

2.1 预处理器

预处理的主要内容有如下:

  • #define进行替换
  • 处理#if #ifdef等预编译指令
  • 展开#include
  • 删除 // /* */
  • 添加行号和文件名
  • 保留Progma指令 ......

    string.h 文件展开

2.2 编译

编译遵循的语法规则(个人总结):

  • 函数需要声明,不能重复声明
  • 变量、结构体不能重复定义
  • 变量函数定义需要封号结尾
  • 定义变量数组需要指明大小,不能为负数 宏与枚举不能重复声明
  • 宏需要多行,如果多行,需要\进行链接
  • 包含头文件的路径需要指明
  • 需要包含正确的头文件
  • 函数的声明和定义需要一致
  • If whilefor等关键字得正确使用
  • 注释的正确使用

2.3 链接

链接:将目标文件粘贴在一起,形成可执行文件。

按.o文件进行地址排序

  • Main fun -> Uart1Init fun Main fun -> UartPoll fun
  • 每个目标文件为一个section
  • 目标文件中首个函数地址均从0开始
  • 根据链接顺序,依次向后排
  • 向后排的大小按照目标文件所有函数的大小
  • 后面的符号地址确定后会在前面地址进行修正

    按section进行地址排序(设置了分割section 属性,将每个函数进行section分割)
  • Main fun -> Uart1Init fun
  • Main fun -> UartPoll fun
  • 目标文件每个函数为一个section
  • 函数地址均从0开始
  • 根据链接顺序,依次向后排
  • 想后排的大小按照函数的大小
  • 后面的符号地址确定后会在前面地址进行修正

3、目标文件的认识

3.1 简介

目标文件:以.o或者.obj文件结尾,是可重定位文件(下图1中 REL(Relocatable file))。

  • 包括了代码和数据 (下图2)
  • 入口地址为0 (下图1)
  • 包括多个section/Segment (下图2)
  • Section中包含符号表/重定位表(下图3)
  • 可以被用来链接成可执行文件或者共享库文件
  • 遵循ELF文件格式

    下图中有365个段,包括了bss以及data段以及重定位段等。

    Section: 链接视图中的段
    Segemnt:装载视图中的段,合并一定相同属性的段

由下图可以看到Section中定义的段,到了Segment里面,代码都合并成了一段。

比如ER_IROM1 、ER_REGION_HEADER、ER_IROM2 合并了,

这样的好处可以减少段零散,节省内存,同时加载相对简单,不需要每个section都去分散加载。

3.2 目标文件分析

目标文件分析:分割section

分割section的意思,按函数分割为一个段,

UART1Init:Section10,Size 208 Byte,重定位后的地址0x08004C5C(下图1),

UART1Poll:Section11,Size 176Byte,重定位后的地址0x08004D2C(下图1),恰好相差0xD0,也就是208Byte(下图2)。

结论:目标文件确定后,其大小则确定,即链接器按照地址和size依次向后排列,确定地址。

从下图4也可以看出,最终的可执行文件指令代码和目标文件形成的指令代码是一致的

图1

图2

图3

图4
目标文件分析:文件为section

Uart.o 为一个section,内部函数按顺序地址递增,然后文件之间进行地址排序

Uart.o wifi.o:地址0x08007E68 -- 0x08009004(下图2),相差0x119C(4508个byte)(下图3),

结论:目标文件确定后,链接器按照文件地址和size依次向后排列,确定地址,同时size增大(44280 -> 62128)下图5。

图1

图2

图3

图4

图5

3.3 目标文件重定位

目标文件重定位表:记录着哪些位置的值链接器需要进行重定位

表结构:两个成员,一个offset,一个type

c 复制代码
typedef struct rel_table_struct
{
      u32 offset;
      u32 type;
}rel_table_t;

可能是数据重定位,也可能是函数重定位

  • 下图1 可以看到是一个重定位表,第一个是函数重定位,其type类型是 R_THM_CALL,符号是DMA_Get_CurrDataCounter
  • 下图1中其他是数据,Type是R_ARMC_ABS32,
  • 图2 可以看到UART1Poll函数,其数据地址都是0,重定位后,图2可以看到都有了相应的地址。

图1

图2

图3

函数地址进行重定位

  • 目标文件中的BL指令F7FFFFFE,经过重定位后,变成F7DFFE94
  • BL的修改规则,是通过BL的ARM 指令编码表来计算的,如下图2。例如知道知道当前地址和编码后的指令代码,就可以知道跳转的地址(下图3和图4),当然如果知道当前地址以及跳转地址,可以推断出修订指令编码值。
  • 函数跳转地址实现如下面代码所示,根据ARM BL指令编码表,然后计算出S、J1和J2,imm1和imm2,最后再组装在一起,形成最后的值。

    图1

    图2

    图3

    图4
c 复制代码
        int it,pc,offset = 0;
        printf("please input Intruction:\r\n");
        scanf("%x", &it);
        printf("please input pc:\r\n");
        scanf("%x", &pc);

        int S = (it & 0x04000000) >> 26;
        int J1 = (it & 0x00002000) >> 13;
        int J2 = (it & 0x00000800) >> 11;

        int I1 = (~(J1 ^ S))&0x1;
        int I2 = (~(J2 ^ S))&0x1;

        int imm10 = (it & 0x03FF0000) >> 16;
        int imm11 = (it & 0x000007FF);
        if(S == 1)
        {
            offset = 0xFF000000;
        }
        offset |= (S<<24);

        offset |= (I1<<23);
        offset |= (I2<<22);

        offset |= (imm10<<12);
        offset |= (imm11<<1);

        printf("jump addr=0x%x\r\n",(offset + pc + 4));

4、静态链接

4.1 空间地址分配

在链接的时候,如果形成图1的这种可执行文件,那么加载的时候,有一些劣势。

简单地址分配:

  • 空间浪费
  • 不利于管理
  • 不利于加载

4.2 强弱符号和修饰

  • 强符号、弱符号与符号修饰:__weak 或者 attribute ((weak))
    符号:函数和变量,链接器接口
    符号名:函数名和变量名
    强符号:只允许存在一个
    弱符号:允许存在多个(weak修饰)
    符号修饰:符号名根据特定规则进行修改
    extern "C":将函数名按照C语言中生成函数名的方式去生成。

对于弱符号,如果只定义不实现,可以编译过?链接过?能执行吗?

可以看到能编译过,同样可以链接过,但是执行报错,地址为空,可能无法访问。

所以GCC编译器:

  • 若符号即使没定义,也可以链接
  • 有符号名
  • 符号地址为空,允许出错

对于ARMCC编译器:

  • 若符号即使没定义,也可以链接
  • 没有符号名
  • 函数引用指令链接成nop,可正常运行

再来说说修饰规则C++调用C:

  • GCC:不作任何操作
  • VC编译器:符号前面加"_"下划线。
  • 不声明extern "C"情况:按照C++的函数命名去修饰


    修饰规则C++:
  • GCC:N或者_N开头,.........
  • VC编译器:??或者?开头 ,.......

4.3 链接与ABI接口

链接与ABI接口:Application Binary Interface,应用程序二进制接口

  • API与ABI:前者为源码级别的接口(如POSIX), 后者来二进制级别的接口(各大编译器无法兼容的原因,就是ABI不同,比如GCC和VC编译器,C++标准都一样,但是ABI不同,导致无法互相调用)。

  • 影响ABI的因素:C角度

    • 基本类型大小以及存储方式(大小端)
    • 符号修饰方面 函数调用方式(入栈/返回值)
    • 寄存器使用约定等
    • 堆栈分布方式
  • 影响ABI的因素:C++角度

    • 继承类体系分布
    • 指向成员指针内存分布
    • 虚函数的调用
    • 模板类的实例化
    • 外部符号的修饰
    • 全局对象的构造和析构
    • 异常产生和捕获机制

4.4 链接过程控制与脚本语法

链接过程控制其实就是链接脚本来控制链接的过程,比如将数据分配到链接脚本指定的段。

加载视图:加载期间,代码和数据的分布情况

运行视图:运行期间,代码和数据的分布情况

存储地址:代码数据存放的位置

加载地址:代码数据加载到内存中(执行代码)的地址

执行地址:代码数据真正执行的地址

来看一个加载过程,具体可参考【Bootloader学习理解学习--加强版】

链接脚本语法,如下面两张图所示。

相关推荐
灰哥数据智能1 个月前
DB-GPT系列(五):DB-GPT六大基础应用场景part2
数据库·人工智能·python·sql·gpt·abi
shylyly_2 个月前
编译链接的过程发生了什么?
linux·gcc·底层·编译链接
时光飞逝的日子3 个月前
GNU链接器(LD):什么是符号?符号定义及实例解析
符号·gcc·链接脚本·gnu链接器·符号定义
Android技术栈5 个月前
鸿蒙(API 12 Beta2版)NDK开发【HarmonyOS ABI】硬件兼容性
harmonyos·鸿蒙·鸿蒙系统·openharmony·ndk·abi·硬件兼容性
Android小贾7 个月前
鸿蒙内核源码分析(ELF格式篇) | 应用程序入口并不是main
汇编·移动开发·harmonyos·elf·openharmony·鸿蒙开发·内核机制
下课后泡实验室1 年前
【C语言学习笔记 --- 编译与链接】
c语言·笔记·学习·编译与原理·#和##·编译链接·预编译处理指令
凉、介1 年前
ELF文件结构描述
elf·强符号·弱符号·链接