GDB调试简单介绍

最近和许多同事交流时，发现好多人只是在IDE上debug，但是gdb却一点都不了解；校招新来的同事更是都没听过gdb这个工具，所以在培训时给他们培训了一下；另外好久也没写blog了，刚好把这篇笔记简单分享一下。

0 简介

GDB 全称"GNU symbolic debugger"，GNU家族成员之一。

所谓调试（Debug），就是让代码一步一步慢慢执行，跟踪程序的运行过程。比如，可以让程序停在某个地方，查看当前所有变量的值，或者内存中的数据；也可以让程序一次只执行一条或者几条语句，看看程序到底执行了哪些代码。

也就是说，通过调试程序，我们可以监控程序执行的每一个细节，包括变量的值、函数的调用过程、内存中数据、线程的调度等，从而发现隐藏的错误或者低效的代码；在我们日常coding debug时，有时很难肉眼发现自己写的代码的问题之处，这时GDB就排上用场了。

下载和安装这里不做说明，放一个源码链接：http://ftp.gnu.org/gnu/gdb/，感兴趣的小伙伴，可以下载看下。

1 常用debug命令

这里仅介绍些基础命令，覆盖日常50-60%的使用，简单调试够用了，实际工程使用中肯定是不够的，先掌握基本的命令，遇到问题再具体学习（有时间精力的小伙伴也可以找大全命令学习下）。

1.1 汇总

GDB 的主要功能就是监控程序的执行流程。这也就意味着，只有当源程序文件编译为可执行文件并执行时，并且该文件中必须包含必要的调试信息（比如各行代码所在的行号、包含程序中所有变量名称的列表（又称为符号表）等），GDB才会派上用场。

所以在编译时需要使用 gcc/g++ -g 选项编译源文件，才可生成满足 GDB 要求的可执行文件

1.2启动程序

根据不同场景的需要，GDB 调试器提供了多种方式来启动目标程序，其中最常用的就是run 指令，其次为 start 指令。也就是说，run和 start 指令都可以用来在 GDB 调试器中启动程序，它们之间的区别是：

默认情况下：

run 指令会一直执行程序，直到执行结束。如果程序中手动设置有断点，则 run指令会执行程序至第一个断点处；

start 指令会执行程序至main()主函数的起始位置，即在main()函数的第一行语句处停止执行（该行代码尚未执行）。

1.3 break命令

break 命令（可以用b 代替）常用的语法格式有以下 2 种。

bash 复制代码

1、(gdb) break location      // b location
2、(gdb) break ... if cond   // b .. if cond

其中，第一种格式中，location 用于指定打断点的具体位置，其表示方式有多种，如表 1 所示。

第二种格式中，... 可以是表 1 中所有参数的值，用于指定打断点的具体位置；cond 为某个表达式。整体的含义为：每次程序执行到 ... 位置时都计算 cond 的值，如果为 True，则程序在该位置暂停；反之，程序继续执行。另外也可以用condition 为断点设置命中条件。

1.4 删除或禁用断点

1.4.1删除断点

如果之前建立的断点不再需要或者暂时不需要，该如何删除或者禁用呢？常用的方式有 2 种：

使用 quit 命令退出调试，然后重新对目标程序启动调试，此方法会将消除上一次调试操作中建立的所有断点；

使用专门删除或禁用断点的命令，既可以删除某一个断点，也可以删除全部断点。

无论是普通断点、观察断点还是捕捉断点，都可以使用 clear 或者 delete 命令进行删除。

clear 命令可以删除指定位置处的所有断点，常用的语法格式如下所示：

bash 复制代码

(gdb) clear location

参数location 通常为某一行代码的行号或者某个具体的函数名。当 location 参数为某个函数的函数名时，表示删除位于该函数入口处的所有断点。

delete 命令（可以缩写为 d）通常用来删除所有断点，也可以删除指定编号的各类型断点，语法格式如下：

bash 复制代码

delete [breakpoints] [num]

其中，breakpoints 参数可有可无，num 参数为指定断点的编号，其可以是delete 删除某一个断点，而非全部。

如果不指定 num参数，则 delete 命令会删除当前程序中存在的所有断点。

1.4.2禁用端点

禁用断点可以使用 disable 命令，语法格式如下：

bash 复制代码

disable [breakpoints] [num...]

breakpoints 参数可有可无；num...表示可以有多个参数，每个参数都为要禁用断点的编号。如果指定 num...，disable 命令会禁用指定编号的断点；反之若不设定 num...，则 disable 会禁用当前程序中所有的断点。

对于禁用的断点，可以使用enable 命令激活，该命令的语法格式有多种，分别对应有不同的功能：

1 enable $breakpoints$ $num...$ 激活用 num... 参数指定的多个断点，如果不设定 num...，表示激活所有禁用的断点
2 enable $breakpoints$ once num... 临时激活以 num... 为编号的多个断点，但断点只能使用 1 次，之后会自动回到禁用状态
3 enable $breakpoints$ count num... 临时激活以 num... 为编号的多个断点，断点可以使用 count 次，之后进入禁用状态
4 enable $breakpoints$ delete num... 激活 num... 为编号的多个断点，但断点只能使用 1 次，之后会被永久删除。

1.5查看变量或表达式的值

对于在调试期间查看某个变量或表达式的值，GDB 调试器提供有 2 种方法，即使用 print 命令或者 display命令。

1.5.1print

它的功能就是在 GDB 调试程序的过程中，输出或者修改指定变量或者表达式的值。

print 命令可以缩写为 p，最常用的语法格式如下所示：

bash 复制代码

(gdb) print num
(gdb) p num

其中，参数 num 用来代指要查看或者修改的目标变量或者表达式。

当程序中包含多个作用域不同但名称相同的变量或表达式时，可以借助::运算符明确指定要查看的目标变量或表达式。::运算符的语法格式如下：

bash 复制代码

1(gdb) print file::variable
2(gdb) print function::variable

其中 file用于指定具体的文件名，funciton 用于指定具体所在函数的函数名，variable表示要查看的目标变量或表达式。

另外，print也可以打印出类或者结构体变量的值。

1.5.2 display

和 print 命令一样，display 命令也用于调试阶段查看某个变量或表达式的值，它们的区别是，使用 display 命令查看变量或表达式的值，每当程序暂停执行（例如单步执行）时，GDB 调试器都会自动帮我们打印出来，而 print 命令则不会。

也就是说，使用 1 次 print 命令只能查看 1 次某个变量或表达式的值，而同样使用 1 次 display 命令，每次程序暂停执行时都会自动打印出目标变量或表达式的值。因此，当我们想频繁查看某个变量或表达式的值从而观察它的变化情况时，使用 display 命令可以一劳永逸。

display 命令没有缩写形式，常用的语法格式如下 2 种：

bash 复制代码

(gdb) display expr
(gdb) display/fmt expr

1.6 GDB单步调试

根据实际场景的需要，GDB 调试器共提供了 3 种可实现单步调试程序的方法，即使用 next、step 和 until 命令。换句话说，这 3 个命令都可以控制 GDB调试器每次仅执行 1 行代码，但除此之外，它们各自还有不同的功能。

1.6.1 next命令

next 是最常用来进行单步调试的命令，其最大的特点是当遇到包含调用函数的语句时，无论函数内部包含多少行代码，next 指令都会一步执行完。也就是说，对于调用的函数来说，next 命令只会将其视作一行代码。

next 命令可以缩写为n 命令，使用方法也很简单，语法格式如下：

bash 复制代码

(gdb) next count

1.6.2 step命令

通常情况下，step 命令和next命令的功能相同，都是单步执行程序。不同之处在于，当step 命令所执行的代码行中包含函数时，会进入该函数内部，并在函数第一行代码处停止执行。

step 命令可以缩写为 s命令，用法和 next 命令相同，语法格式如下：

bash 复制代码

(gdb) step count

1.6.3 until命令

until 命令可以简写为 u 命令，有 2 种语法格式，如下所示：

bash 复制代码

1、(gdb) until
2、(gdb) until location

其中，参数 location为某一行代码的行号。

不带参数的 until命令，可以使 GDB调试器快速运行完当前的循环体，并运行至循环体外停止。注意，until 命令并非任何情况下都会发挥这个作用，只有当执行至循环体尾部（最后一行代码）时，until命令才会发生此作用；反之，until命令和 next 命令的功能一样，只是单步执行程序。

1.6.4 return命令

实际调试时，在某个函数中调试一段时间后，可能不需要再一步步执行到函数返回处，希望直接执行完当前函数，这时可以使用 finish命令。与finish 命令类似的还有 return 命令，它们都可以结束当前执行的函数。

1.6.5 finish命令

finish 命令和 return命令的区别是，finish命令会执行函数到正常退出；而 return 命令是立即结束执行当前函数并返回，也就是说，如果当前函数还有剩余的代码未执行完毕，也不会执行了。除此之外，return命令还有一个功能，即可以指定该函数的返回值。

1.6.6 jump命令

jump 命令的功能是直接跳到指定行继续执行程序，其语法格式为：

bash 复制代码

(gdb) jump location

其中，location 通常为某一行代码的行号。

也就是说，jump 命令可以略过某些代码，直接跳到 location处的代码继续执行程序。这意味着，如果你跳过了某个变量（对象）的初始化代码，直接执行操作该变量（对象）的代码，很可能会导致程序崩溃或出现其它 Bug。另外，如果 jump跳转到的位置后续没有断点，那么 GDB会直接执行自跳转处开始的后续代码。

1.7 GDB search 命令

调试文件时，某些时候可能会去找寻找某一行或者是某一部分的代码。可以使用 list 显示全部的源码，然后进行查看。当源文件的代码量较少时，我们可以使用这种方式搜索。如果源文件的代码量很大，使用这种方式寻找效率会很低。所以 GDB中提供了相关的源代码搜索的的search命令。

search 命令的语法格式为：

bash 复制代码

search <regexp>
reverse-search <regexp>

第一项命令格式表示从当前行的开始向前搜索，后一项表示从当前行开始向后搜索。其中regexp 就是正则表达式，正则表达式描述了一种字符串匹配的模式，可以用来检查一个串中是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串。很多的编程语言都支持使用正则表达式。

1.8 查看堆栈信息

1.8.1 backtrace 命令 (bt)

backtrace 命令用于打印当前调试环境中所有栈帧的信息，常用的语法格式如下：

bash 复制代码

(gdb) backtrace [-full] [n]

其中，用括起来的参数为可选项，它们的含义分别为：

n：一个整数值，当为正整数时，表示打印最里层的 n 个栈帧的信息；n为负整数时，那么表示打印最外层n个栈帧的信息；
-full：打印栈帧信息的同时，打印出局部变量的值。

注意，当调试多线程程序时，该命令仅用于打印当前线程中所有栈帧的信息。如果想要打印所有线程的栈帧信息，应执行thread apply all backtrace命令。

1.8.2 frame 命令

frame命令的常用形式有 2 个：

根据栈帧编号或者栈帧地址，选定要查看的栈帧，语法格式如下：

bash 复制代码

(gdb) frame spec

该命令可以将 spec 参数指定的栈帧选定为当前栈帧。spec 参数的值，常用的指定方法有 3 种：

通过栈帧的编号指定。0 为当前被调用函数对应的栈帧号，最大编号的栈帧对应的函数通常就是 main() 主函数；

借助栈帧的地址指定。栈帧地址可以通过 info frame 命令（后续会讲）打印出的信息中看到；

通过函数的函数名指定。注意，如果是类似递归函数，其对应多个栈帧的话，通过此方法指定的是编号最小的那个栈帧。

除此之外，对于选定一个栈帧作为当前栈帧，GDB 调试器还提供有up 和down两个命令。其中，up命令的语法格式为：

bash 复制代码

(gdb) up n

其中 n为整数，默认值为 1。该命令表示在当前栈帧编号（假设为 m）的基础上，选定 m+n为编号的栈帧作为新的当前栈帧。

相对地，down 命令的语法格式为：

bash 复制代码

(gdb) down n

其中n为整数，默认值为 1。该命令表示在当前栈帧编号（假设为 m）的基础上，选定m-n 为编号的栈帧作为新的当前栈帧。

借助如下命令，我们可以查看当前栈帧中存储的信息：

bash 复制代码

(gdb) info frame

该命令会依次打印出当前栈帧的如下信息：

复制代码

• 当前栈帧的编号，以及栈帧的地址；
• 当前栈帧对应函数的存储地址，以及该函数被调用时的代码存储的地址
• 当前函数的调用者，对应的栈帧的地址；
• 编写此栈帧所用的编程语言；
• 函数参数的存储地址以及值；
• 函数中局部变量的存储地址；
• 栈帧中存储的寄存器变量，例如指令寄存器（64位环境中用 rip 表示，32为环境中用eip 表示）、堆栈基指针寄存器（64位环境用 rbp表示，32位环境用 ebp表示）等。

除此之外，还可以使用info args命令查看当前函数各个参数的值；使用info locals命令查看当前函数中各局部变量的值。

2 读写内存寄存器

调试过程中，要经常查看或者改写内存、寄存器的值，操作如下：

2.1 读取

读取某个变量的值: p <var>
读取某个内存地址里的内容: x <memaddr>
读取某个寄存器的值: info register

后面操作都以下面程序为例：

c 复制代码

int main(void)
{
    unsigned int *src base addr = (unsigned int *)0x1c000292;
    srand(__get_rv_cycle() | get_rv_instret() | __RV_CSR_READ(CSR MCYCLE));
    //*src base addr = 0x7788;
    int a = 5;
    uint32 t rval = rand();
    uint32 t hartid = __RV_CSR_READ(CSR_MHARTID);
    rv_csr_t misa = __RV_CSR_READ(CSR_MISA);
   
    printf("Hart %d, MISA: 0x%lx\r\n", hartid, misa);
    print_misa();
    for (int i = e; i < RUN_LOOPS; i ++) {
        printf("%d: Hello World From Nuclei RISC-V Processor! rin",i)
    }
    simulation pass();
}

2.1.1 读取变量值

p/x：其中p为print，x代表16进制

2.1.2 读取内存

其中x代表examine，检查可以直接查看内存地址
也可以通过print打印该地址的解引用值

另外，使用x命令打印多条内存数据的格式为x/nfu addr。其中：

n表示输出单元的个数；
f表示输出格式，比如x是以16进制形式输出，o是以8进制形式输出；
u表示一个单元的长度，b是一个byte，h是两个byte（halfword），w是四个byte（word），g是八个byte（giant word）。

2.1.3 查看寄存器信息

这里说的寄存器是通用寄存器，不是某个ip的寄存器（和内存一样操作）

2.2 写操作

写操作一般用的不多，但最好还是了解。

2.2.1 修改变量的值

bash 复制代码

set var <name> = <value>

2.2.2修改寄存器的值

bash 复制代码

set $<register> = <value>

修改通用寄存器

2.2.3修改pc值

2.2.4修改内存值

3 watchpoint使用

很多情况下，程序的bug是由于某个变量或地址被莫名修改而导致的，但是具体什么时候修改了该值，我们很难定位到。

和breakpoint类似，watchpoint用来观察数据或者地址变化，breakpoint是指令断点；观察点watchpoint功能，可以监控程序中变量或表达式的值，只要在运行过程中发生改变，程序就会停止执行。可以说学会watchpoint，能够实现让bug自动现身的效果。

3.1适用场景

数据污染，变量异常变化导致bug
内存泄漏，踩了地址
确定了某个异常变量，但是该变量被多次使用、还会在各种循环内被操作。
多线程场景，线程切来切去，不知道变量具体被哪个线程修改了。

3.2 watchpoint命令

3.3 使用演示

错误dump如下：

1）打印出现指令异常。当前PC值为0x1c000294
2）异常错误MCAUSE 是 2，非法指令
3）猜测应该是程序哪里修改了指令（可能是内存踩踏、内存泄漏），导致0x1c000294处的指令被修改为非法指令0x00

c 复制代码

int main(void)
{
    unsigned int *src base addr = (unsigned int *)0x1c000292;
    srand(__get_rv_cycle() | get_rv_instret() | __RV_CSR_READ(CSR MCYCLE));
    //*src base addr = 0x7788;
    int a = 5;
    uint32 t rval = rand();
    uint32 t hartid = __RV_CSR_READ(CSR_MHARTID);
    rv_csr_t misa = __RV_CSR_READ(CSR_MISA);
   
    printf("Hart %d, MISA: 0x%lx\r\n", hartid, misa);
    print_misa();
    for (int i = e; i < RUN_LOOPS; i ++) {
        printf("%d: Hello World From Nuclei RISC-V Processor! rin",i)
    }
    simulation pass();
}

4）实际是刻意为之，修改了指令内存地址
5）实际情况下是，我们不知道哪里出了问题，这时就已使用watchpoint来找出问题
6）当观察点的内存内容被修改时，cpu将会被hang住，通过查看上下文锁定位置这里在99行（还未执行）上一句被修改

简单介绍了下gdb的基本使用，内存读写命令和watchpoint，抛砖引玉吧，如有错误之处请在评论区指出。