回滚操作,除了回滚整个事务,还可以部分回滚。部分回滚,需要保存点(savepoint)的协助。本文我们先看看保存点里面都有什么。
作者:操盛春,爱可生技术专家,公众号『一树一溪』作者,专注于研究 MySQL 和 OceanBase 源码。
爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源
本文基于 MySQL 8.0.32 源码,存储引擎为 InnoDB。
1. undo 日志序号
InnoDB 的事务对象有一个名为 undo_no
的属性。事务每次改变(插入、更新、删除)某个表的一条记录,都会产生一条 undo 日志。这条 undo 日志中会存储它自己的序号。这个序号就来源于事务对象的 undo_no 属性。
也就是说,事务对象的 undo_no 属性中保存着事务改变(插入、更新、删除)某个表中下一条记录产生的 undo 日志的序号。
每个事务都维护着各自独立的 undo 日志序号,和其它事务无关。
每个事务的 undo 日志序号都从 0 开始。事务产生的第 1 条 undo 日志的序号为 0,第 2 条 undo 日志的序号为 1,依此类推。
InnoDB 的 savepoint 结构中会保存创建 savepoint 时事务对象的 undo_no 属性值。
2. savepoint 结构
我们通过 SQL 语句创建一个 savepoint 时,server 层、binlog、InnoDB 会各自创建用于保存 savepoint 信息的结构。
server 层的 savepoint 结构是一个 SAVEPOINT
类型的对象,主要属性如下:
- prev:指向 server 层的 savepoint 链表中,上一次创建的 SAVEPOINT 对象。
- name:savepoint 的名字。
- mdl_savepoint:创建这个 savepoint 之前,事务加了哪些 MDL 锁。
binlog 的 savepoint 结构很简单,是一个 8 字节的整数。这个整数的值,是创建 savepoint 时事务已经产生的 binlog 日志的字节数,也是接下来新产生的 binlog 日志写入 trx_cache 的 offset。
为了方便介绍,我们把这个整数值称为 binlog offset。
InnoDB 的 savepoint 结构是一个 trx_named_savept_t
类型的对象,主要属性如下:
- name:InnoDB 的 savepoint 名字。这个名字是 InnoDB 自己生成的,和 server 层的 SAVEPOINT 对象中保存的 savepoint 名字不一样。
- savept :也是一个对象,类型为
trx_savept_t
,里面保存着创建 savepoint 时,事务对象的 undo_no 属性值。 - trx_savepoints :InnoDB 中多个
trx_named_savept_t
对象形成的链表。
创建 savepoint 时,server 层会分配一块 96 字节 的内存,除了存放它自己的 SAVEPOINT
对象,还会存放 binlog offset
和 InnoDB 的 trx_named_savept_t
对象。
server 层的 SAVEPOINT 对象占用这块内存的前 48 字节,InnoDB 的 trx_named_savept_t 对象占用中间的 40 字节,binlog offset 占用最后的 8 字节。
3. 查找同名 savepoint
客户端连接到 MySQL 之后,MySQL 会分配一个专门用于该连接的用户线程。
用户线程中有一个 m_savepoints
链表,用户创建的多个 savepoint 通过 prev 属性形成链表,m_savepoints 就指向最新创建的 savepoint。
server 层创建 savepoint 之前,会按照创建时间从新到老,逐个查看链表中是否存在和本次创建的 savepoint 同名的 savepoint。
4. 删除同名 savepoint
如果在用户线程的 m_savepoints 链表中找到了和本次创建的 savepoint 同名的 savepoint,需要先删除 m_savepoints 链表中的同名 savepoint。
找到的同名 savepoint,是 server 层的 SAVEPOINT
对象,它后面的内存区域分别保存着 InnoDB 的 trx_named_savept_t 对象、binlog offset。
binlog 是个老实孩子,乖乖的把 binlog offset 写入了 server 层为它分配的内存里。删除同名 savepoint 时,不需要单独处理 binlog offset。
InnoDB 就不老实了,虽然 server 层也为 InnoDB 的 trx_named_savept_t 对象分配了内存,但是 InnoDB 并没有往里面写入内容。
事务执行过程中,用户每次创建一个 savepoint,InnoDB 都会创建一个对应的 trx_named_savept_t 对象,并加入 InnoDB 事务对象的 trx_savepoints 链表的末尾。
因为 InnoDB 自己维护了一个存放 savepoint 结构的链表,server 层删除同名 savepoint 时,InnoDB 需要找到这个链表中对应的 savepoint 结构并删除,流程如下:
- server 层把同名 savepoint 的
SAVEPOINT
对象后面分配给 trx_named_savept_t 对象的内存地址传给 InnoDB。 - InnoDB 根据自己的算法把内存地址转换为字符串,作为 InnoDB 的 savepoint 名字,到事务对象的
trx_savepoints
链表中找到对应的 trx_named_savept_t 对象,并从链表中删除该对象。
InnoDB 从事务对象的 trx_savepoints 链表中删除 trx_named_savept_t 对象之后,server 层接着从用户线程的 m_savepoints 链表中删除 server 层的 SAVEPOINT
对象,也就连带着清理了 binlog offset
。
5. 保存 savepoint
处理完查找、删除同名 savepoint 之后,server 层就正式开始创建 savepoint 了,这个过程分为 3 步。
第 1 步,binlog 会生成一个 Query_log_event。
以创建名为 test_savept
的 savepoint 为例,这个 event 的内容如下:
SQL
SAVEPOINT `test_savept`
binlog event 写入 trx_cache 之后,binlog offset 会写入 server 层为它分配的 8 字节的内存中。
第 2 步 ,InnoDB 创建 trx_named_savept_t
对象,并放入事务对象的 trx_savepoints 链表的末尾。
trx_named_savept_t 对象的 name 属性值是 InnoDB 的 savepoint 名字。这个名字是根据 server 层为 InnoDB 的 trx_named_savept_t 对象分配的内存的地址计算得到的。
trx_named_savept_t 对象的 savept
属性,是一个 trx_savept_t
类型的对象。这个对象里保存着创建 savepoint 时,事务对象中 undo_no 属性的值,也就是下一条 undo 日志的序号。
第 3 步 ,把 server 层的 SAVEPOINT
对象加入用户线程的 m_savepoints
链表的尾部。
6. 总结
server 层会创建一个 SAVEPOINT
对象,用于存放 savepoint 信息。
binlog 会把 binlog offset
写入 server 层为它分配的一块 8 字节的内存里。
InnoDB 会维护自己的 savepoint 链表,里面保存着 trx_named_savept_t
对象。
如果 m_savepoints 链表中存在和本次创建的 savepoint 同名的 savepoint, 创建新的 savepoint 之前,server 层会从链表中删除这个同名的 savepoint。
server 层创建的 SAVEPOINT 对象会放入 m_savepoints
链表的末尾。
InnoDB 创建的 trx_named_savept_t 对象会放入事务对象的 trx_savepoints
链表的末尾。
本期问题:创建 savepoint 时,为什么要把 SAVEPOINT xxx 写入 trx_cache 并最终写入 binlog 日志文件呢?这个问题我还没有答案,欢迎大家在留言区留下你的想法。
下期预告:MySQL 核心模块揭秘 | 13 期 | 回滚到 savepoint。
更多技术文章,请访问:opensource.actionsky.com/
关于 SQLE
SQLE 是一款全方位的 SQL 质量管理平台,覆盖开发至生产环境的 SQL 审核和管理。支持主流的开源、商业、国产数据库,为开发和运维提供流程自动化能力,提升上线效率,提高数据质量。