【MySQL】事务(隔离性、MVCC)

文章目录

  • [1. 事务的概念](#1. 事务的概念)
  • [2. 事务的提交方式](#2. 事务的提交方式)
  • [3. 事务常见操作](#3. 事务常见操作)
  • [4. 隔离性](#4. 隔离性)
    • [4.1 隔离级别](#4.1 隔离级别)
    • [4.2 查看与设置隔离性](#4.2 查看与设置隔离性)
    • [4.3 隔离级别的测试](#4.3 隔离级别的测试)
  • [5. 隔离性的原理](#5. 隔离性的原理)
    • [5.1 MVCC](#5.1 MVCC)
      • [5.1.1 3个隐藏字段](#5.1.1 3个隐藏字段)
      • [5.1.2 undo日志](#5.1.2 undo日志)
      • [5.1.3 模拟MVCC](#5.1.3 模拟MVCC)
    • [5.2 Read view](#5.2 Read view)
    • [5.3 RR与RC的本质区别](#5.3 RR与RC的本质区别)

1. 事务的概念

在之前所有的SQL操作中,我们都是单线程去操作的,那如果是多线程情况下会不会有什么问题呢?

所以,CURD满足什么属性,能解决上述问题呢?

  1. 买票的过程得是原子的
  2. 买票互相应该不能影响
  3. 买完票应该要永久有效
  4. 买前,和买后都要是确定的状态

那什么是事务呢?

事务就是一组DML语句组成 ,这些语句在逻辑上存在相关性,这一组DML语句要么全部成功,要么全部失败,是一个整体。MySQL提供一种机制,保证我们达到这样的效果。

事务还规定,不同的客户端看到的数据是不相同的。

  1. 一个 MySQL 数据库,可不止你一个事务在运行,同一时刻,甚至有大量的请求被包装成事务,在向 MySQL 服务器发起事务处理请求。
  2. 而每条事务至少一条 SQL ,最多很多 SQL ,这样如果大家都访问同样的表数据,在不加保护的情况,就绝对会出现问题。
  3. 甚至,因为事务由多条 SQL 构成,那么,也会存在执行到一半出错或者不想再执行的情况,那么已经执行的怎么办呢

所以,一个完整的事务,绝对不是简单的 sql 集合,还需要满足如下四个属性:

  • 原子性 :一个事务(transaction)中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。
  • 一致性 :在事务开始之前和事务结束以后,数据库的完整性没有被破坏。这表示写入的资料必须完全符合所有的预设规则,这包含资料的精确度、串联性以及后续数据库可以自发性地完成预定的工作。
  • 隔离性 :数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离性可以防止多个事务并发执行时由于交叉执行而导致数据的不一致。 事务隔离分为不同级别,包括
    • 读未提交( read uncommitted )
    • 读提交( read committed )
    • 可重复读( repeatable read )
    • 串行化( serializable )
  • 持久性 :事务处理结束后,对数据的修改就是永久的,即便系统故障也不会丢失。

上面四个属性,可以简称为 ACID

  • 原子性(Atomicity)
  • 一致性(Consistency)
  • 隔离性(Isolation)
  • 持久性(Durability)

为什么数据库要有事务呢?在使用数据库的上层我也可以做这些操作呀!

  • 事务被 MySQL 编写者设计出来,本质是为了当应用程序访问数据库的时候,事务能够简化我们的编程模型,不需要我们去考虑各种各样的潜在错误和并发问题
  • 可以想一下,当我们使用事务时,要么提交,要么回滚,我们不会去考虑网络异常了,服务器宕机了,同时更改一个数据怎么办对吧?因此事务本质上是为了应用层服务的,而不是伴随着数据库系统天生就有的

在 MySQL 中只有使用了 Innodb 数据库引擎的数据库或表才支持事务, MyISAM 不支持

sql 复制代码
show engines;	//查看数据库引擎

2. 事务的提交方式

事务的提交方式常见的有两种:

  • 自动提交
  • 手动提交

查看事务提交方式

sql 复制代码
show variables like 'autocommit';
sql 复制代码
set autocommit = 0;		//关闭自动提交
set autocommit = 1;		//打开自动提交

3. 事务常见操作

mysql本质也是一个网络服务器,可以被多个客户端同时访问,可使用命令查看当前有多少人连接了mysql服务端。

sql 复制代码
show processlist;

为了便于演示,我们将mysql的默认隔离级别设置成读未提交

查看隔离级别(MySQL 8.0 及以后的版本中,tx_isolation 系统变量已被重命名为 transaction_isolation)

sql 复制代码
select @@transaction_isolation;	

设置隔离级别(后面详细讲解)

sql 复制代码
set global transaction isolation level read uncommitted;	
                                      (     隔离级别    )
  1. 验证事务的开始与回滚

建立一张测试表

sql 复制代码
create table if not exists account(
	id int primary key,
	name varchar(50) not null,
	blance decimal(10,2) not null default 0.0
)ENGINE=InnoDB DEFAULT CHARSET=UTF8;

看事务是否自动提交,我们故意设置成自动提交,看看该选项是否影响begin


我们发现,回滚后,保存点之后的操作都没有了。

  1. 证明commit后,客户端崩溃,MySQL数据不会在受影响,已经持久化
  1. 证明begin操作会自动更改提交方式,不会受MySQL是否自动提交影响(即手动begin,必须手动关闭,和自动提交无关)

操作异常,自动回滚

  1. 单条 SQL 与事务的关系

关闭自动提交,异常退出,会自动回滚

开启自动提交

事务操作注意事项

  • 如果没有设置保存点,也可以回滚,只能回滚到事务的开始。直接使用 rollback(前提是事务还没有提交)
  • 如果一个事务被提交了(commit),则不可以回退(rollback)
  • 可以选择回退到哪个保存点
  • InnoDB 支持事务, MyISAM 不支持事务

结论

  • 只要输入begin或者start transaction,事务便必须要通过commit提交,才会持久化,与是否设置set autocommit无关。
  • 事务可以手动回滚,同时,当操作异常,MySQL会自动回滚
  • 对于 InnoDB 每一条 SQL 语言都默认封装成事务,自动提交 。(select有特殊情况,因为MySQL 有 MVCC )
  • 从上面的例子,我们能看到事务本身的原子性(回滚),持久性(commit)

那么什么叫做隔离性?什么叫做一致性?

4. 隔离性

  • MySQL服务可能会同时被多个客户端进程(线程)访问,访问的方式以事务方式进行。一个事务可能由多条SQL构成,也就意味着,任何一个事务,都有执行前,执行中,执行后的阶段。而所谓的原子性,其实就是让用户层,要么看到执行前,要么看到执行后。执行中出现问题,可以随时回滚。所以单个事务,对用户表现出来的特性,就是原子性。

  • 但,毕竟所有事务都要有个执行过程,那么在多个事务各自执行多个SQL的时候,就还是有可能会出现互相影响的情况。比如:多个事务同时访问同一张表,甚至同一行数据。

  • 就如同你妈妈给你说:你要么别学,要学就学到最好。至于你怎么学,中间有什么困难,你妈妈不关心。那么你的学习,对你妈妈来讲,就是原子的。那么你学习过程中,很容易受别人干扰,此时,就需要将你的学习隔离开,保证你的学习环境是健康的。

  • 数据库中,为了保证事务执行过程中尽量不受干扰,就有了一个重要特征:隔离性

  • 数据库中,允许运行中的事务受不同程度的干扰,就有了一种重要特征:隔离级别

4.1 隔离级别

  • 读未提交 (Read Uncommitted): 在该隔离级别,所有的事务都可以看到其他事务没有提交的执行结果,相当于没有任何隔离性,也会有很多并发问题,如脏读,幻读,不可重复读等,我们上面为了做实验方便,用的就是这个隔离性。
  • 读提交 (Read Committed) :该隔离级别是大多数数据库的默认的隔离级别(不是 MySQL 默认的)。它满足了隔离的简单定义:一个事务只能看到其他的已经提交的事务所做的改变。这种隔离级别会引起不可重复读,即一个事务执行时,如果多次 select,可能得到不同的结果。
  • 可重复读 (Repeatable Read): 这是 MySQL 默认的隔离级别,它确保同一个事务,在执行中,多次读取操作数据时,会看到同样的数据行,但是会有幻读问题。
  • 串行化(Serializable):这是事务的最高隔离级别,它通过强制事务排序,使之不可能相互冲突,从而解决了幻读的问题。它在每个读的数据行上面加上共享锁,。但是可能会导致超时和锁竞争(这种隔离级别太极端,实际生产基本不使用)

隔离级别如何实现:隔离,基本都是通过锁实现的,不同的隔离级别,锁的使用是不同的。常见有,表锁,行锁,读锁,写锁,间隙锁(GAP),Next-Key锁(GAP+行锁)等。

4.2 查看与设置隔离性

隔离性有三种:全局、会话、默认。

设置隔离级别:

sql 复制代码
SET [SESSION | GLOBAL] TRANSACTION ISOLATION LEVEL 
{READ UNCOMMITTED | READ COMMITTED | REPEATABLE READ | SERIALIZABLE}
  1. 设置当前会话隔离性,另起一个会话,看不到,只影响当前会话
  1. 设置全局隔离性,另起一个会话,会被影响
  2. 默认级别采取就近原则,一般都是会话级别
  3. 未设置会话隔离级别时,会话会使用默认隔离级别,而默认隔离级别可能是全局配置的一部分

4.3 隔离级别的测试

  1. 读未提交(read uncommitted)

一个事务在执行中,读到另一个执行中事务的更新(或其他操作),但是未commit的数据,这种现象叫做脏读

  1. 读提交(read committed)

同一个事务内,同样的读取,在不同的时间段(依旧还在事务操作中!),读取到了不同的值,这种现象叫做不可重复读(non reapeatable read)

  1. 可重复读(Repeatable Read)

多次查看,发现终端A在对应事务中update的数据,在终端B的事务周期中,也没有什么影响,也符合可重复的特点;直到事务B也commit后,才可看到

但是,一般的数据库在可重复读情况的时候,无法屏蔽其他事务insert的数据 (为什么?因为隔离性实现是对数据加锁完成的,而insert待插入的数据因为并不存在,那么一般加锁无法屏蔽这类问题 ),会造成虽然大部分内容是可重复读的,但是insert的数据在可重复读情况被读取出来,导致多次查找时,会多查找出来新的记录,就如同产生了幻觉。这种现象,叫做幻读(phantom read)。很明显,MySQL在RR级别的时候,是解决了幻读问题的。

  1. 串行化(serializable)

对所有操作全部加锁,进行串行化,不会有问题,但是只要串行化,效率很低 ,几乎完全不会被采用。


总结:

  • 其中隔离级别越严格,安全性越高,但数据库的并发性能也就越低,往往需要在两者之间找一个平衡点。
  • 不可重复读的重点是修改和删除:同样的条件,你读取过的数据,再次读取出来发现值不一样了
  • 幻读的重点在于新增:同样的条件,第1次和第2次读出来的记录数不一样,说明: mysql 默认的隔离级别是可重复读(RR),一般情况下不要修改
  • 上面的例子可以看出,事务也有长短事务这样的概念。事务间互相影响,指的是事务在并行执行的时候,即都没有commit的时候,影响会比较大

一致性(Consistency)

  • 事务执行的结果,必须使数据库从一个一致性状态,变到另一个一致性状态。
  • 当数据库只包含事务成功提交的结果时,数据库处于一致性状态。如果系统运行发生中断,某个事务尚未完成而被迫中断,而已完成的事务对数据库所做的修改已被写入数据库,此时数据库就处于一种不正确(不一致)的状态,因此一致性是通过原子性来保证的。
  • 其实一致性和用户的业务逻辑强相关,一般MySQL提供技术支持,但是一致性还是要用户业务逻辑做支撑,也就是,一致性,是由用户决定的。而技术上,通过AID保证C

5. 隔离性的原理

数据库并发的场景有三种:

  • 读-读 :不存在任何问题,也不需要并发控制
  • 读-写 :有线程安全问题,可能会造成事务隔离性问题,可能遇到脏读,幻读,不可重复读
  • 写-写 :有线程安全问题,可能会存在更新丢失问题,比如第一类更新丢失,第二类更新丢失(后面补充)

5.1 MVCC

对于读-写并发问题

多版本并发控制( MVCC )是一种用来解决 读-写冲突 的无锁并发控制

为事务分配单向增长的事务ID ,为每个修改保存一个版本 ,版本与事务ID关联,读操作只读该事务开始前的数据库的快照。 所以 MVCC 可以为数据库解决以下问题

  • 在并发读写数据库时,可以做到在读操作时不用阻塞写操作,写操作也不用阻塞读操作,提高了数据库并发读写的性能
  • 同时还可以解决脏读,幻读,不可重复读等事务隔离问题,但不能解决更新丢失问题

理解 MVCC 需要知道三个前提知识:

5.1.1 3个隐藏字段

  • 3个记录隐藏字段
  • undo 日志
  • Read View
  1. 3个记录隐藏字段
  • DB_TRX_ID :6 byte,最近修改的事务ID ,记录创建这条记录/最后一次修改该记录的事务ID(方便溯源
  • DB_ROLL_PTR : 7 byte,回滚指针,指向这条记录的上一个版本(简单理解成,指向历史版本就行,这些数据一般在 undo log 中)
  • DB_ROW_ID : 6 byte,隐含的自增ID(隐藏主键) ,如果数据表没有主键, InnoDB 会自动以DB_ROW_ID 产生一个聚簇索引
  • 每个事务都要有自己的事务ID,可以根据事务ID的大小,来决定事务到来的先后
  • mysql可能会面临处理多个事务的情况,所以事务也有自己的生命周期,mysql也要多事务进行管理

假设表的结构如下:

上述隐藏字段的意思是:

name age DB_TRX_ID DB_ROW_ID DB_ROLL_PTR
张三 28 null 1 null

我们目前并不知道创建该记录的事务ID,隐式主键,我们就默认设置成null,1。第一条记录也没有其他版本,我们设置回滚指针为null。

5.1.2 undo日志

MySQL将来是以服务进程的方式,在内存中运行。

我们之前所讲的所有机制:索引,事务,隔离性,日志等,都是在内存中完成的,即在 MySQL 内部的相关缓冲区中,保存相关数据,完成各种判断操作,然后在合适的时候,将相关数据刷新到磁盘当中的。

所以,我们这里理解undo log,简单理解成 ,就是 MySQL 中的一段内存缓冲区,用来保存日志数据的就行

5.1.3 模拟MVCC

现在有一个事务,ID为10(假设),对student表中记录进行修改(update):将name(张三)改成name(李四)。

  1. 事务10,因为要修改,所以要先给该记录加行锁。

  2. 修改前,先将改行记录拷贝到undo log中,所以,undo log中就有了一行副本数据。(原理就是写时拷贝)

  3. 所以现在 MySQL 中有两行同样的记录。

  4. 现在修改原始记录中的name,改成 '李四'。并且修改原始记录的隐藏字段 DB_TRX_ID 为当前 事务10 的ID,我们默认从 10 开始,之后递增。

  5. 而原始记录的回滚指针 DB_ROLL_PTR 列,里面写入undo log中副本数据的地址,从而指向副本记录,既表示我的上一个版本就是它。

  6. 事务10提交,释放锁。

此时,最新的记录是"李四"那条记录。


现在又有一个事务11,对student表中记录进行修改(update):将age(28)改成age(38)。

  1. 事务11,因为也要修改,所以要先给该记录加行锁。(该记录是那条?)
  2. 修改前,先将改行记录拷贝到undo log中,所以,undo log中就又有了一行副本数据。
  3. 此时,新的副本,我们采用头插方式,插入undo log。
  4. 现在修改原始记录中的age,改成 38。并且修改原始记录的隐藏字段 DB_TRX_ID 为当前 事务11 的ID。
  5. 而原始记录的回滚指针 DB_ROLL_PTR 列,里面写入undo log中副本数据的地址,从而指向副本记录,既表示我的上一个版本就是它。
  6. 事务11提交,释放锁。

这样,我们就有了一个基于链表记录的历史版本链。所谓的回滚,无非就是用历史数据,覆盖当前数据。

上面的一个一个版本,我们可以称之为一个一个的快照

事务提交后,无法回滚,因为undo log 已经释放了


那么select呢?首先,select不会对数据做任何修改,所以,为select维护多版本,没有意义。

不过,此时有个问题:select读取,是读取最新的版本呢?还是读取历史版本?

读取最新的记录,叫做当前读,增删改,都叫做当前读。select也有可能当前读(比如:select... lock in share mode(共享锁) )

读取历史版本 (一般而言),就叫做快照读

我们可以看到,在多个事务同时删改查的时候,都是当前读,是要加锁的,这就是串行化。

但如果是快照读,读取历史版本的话,是不受加锁限制的。也就是可以并行执行!这样就提高了效率,即MVCC的意义所在。

那么,是什么决定了,select是当前读,还是快照读呢?隔离级别

那为什么要有隔离级别呢?

  1. 事务都是原子的。所以,无论如何,事务总有先有后
  2. 但是经过上面的操作我们发现,事务从begin->CURD->commit,是有一个阶段的。也就是事务有执行前,执行中,执行后的阶段。但,不管怎么启动多个事务,总是有先有后的。
  3. 那么多个事务在执行中,CURD操作是会交织在一起的。那么,为了保证事务的"有先有后",是不是应该让不同的事务看到它该看到的内容,这就是所谓的隔离性与隔离级别要解决的问题

那么,如何保证,不同的事务,看到不同的内容呢?也就是如何实现隔离级别?

5.2 Read view

Read View就是事务进行 快照读 操作的时候生产的 读视图 (Read View),在该事务执行的快照读的那一刻,会生成数据库系统当前的一个快照,记录并维护系统当前活跃事务的ID(当每个事务开启时,都会被分配一个ID,这个ID是递增的,所以最新的事务,ID值越大)

Read View 在 MySQL 源码中,就是一个类,本质是用来进行可见性判断的 。 即当我们某个事务执行快照读的时候,对该记录创建一个 Read View 读视图,把它比作条件,用来判断当前事务能够看到哪个版本的数据,既可能是当前最新的数据,也有可能是该行记录的 undo log 里面的某个版本的数据。

下面是简化后的 ReadView 的结构

cpp 复制代码
class ReadView {
	// 省略...
private:
	/** 高水位,大于等于这个ID的事务均不可见*/
	trx_id_t m_low_limit_id
	
	/** 低水位:小于这个ID的事务均可见 */
	trx_id_t m_up_limit_id;
	
	/** 创建该 Read View 的事务ID*/
	trx_id_t m_creator_trx_id;
	
	/** 创建视图时的活跃事务id列表*/
	ids_t m_ids;
	
	/** 配合purge,标识该视图不需要小于m_low_limit_no的UNDO LOG,
	* 如果其他视图也不需要,则可以删除小于m_low_limit_no的UNDO LOG*/
	trx_id_t m_low_limit_no;
	
	/** 标记视图是否被关闭*/
	bool m_closed;
	// 省略...
};
  • m_ids:一张列表,用来维护Read View生成时,系统正活跃的事务ID
  • m_up_limit_id:记录m_ids列表中最小的事务ID
  • m_low_limit_id:ReadView生成时刻系统尚未分配的下一个事务ID,也就是目前已出现过的事务ID的最大值+1
  • m_creator_trx_id:创建该ReadView的事务ID
  • 我们在实际读取数据版本链的时候,是能读取到每一个版本对应的事务ID的,即:记录的DB_TRX_ID
  • 那么,我们现在手里面有:当前快照读的ReadView 和 版本链中的某一个记录的DB_TRX_ID

所以现在的问题就是:当前快照读,应不应该读到当前版本记录?

通过比对的read view 中的某些属性与undo log中历史记录的DB_TRX_ID

通过下面的图理解一下:

Read View是事务可见性的一个类,不是事务创建出来,就会有read view,而是当这个事务(已经存在),首次进行快照读时,mysql才形成read view。

5.3 RR与RC的本质区别

  1. 验证read view是在快照读以后形成的

select * from user lock in share mode ,以加共享锁方式进行读取,对应的就是当前读;如果我们直接使用select,都是快照读。

别人commit后,再快照读

结论:

  • 事务中快照读的结果是非常依赖该事务首次出现快照读的地方,即某个事务中首次出现快照读,决定该事务后续快照读结果的能力
  • delete同样如此

RR 与 RC的本质区别:Read View生成的时机不同,从而造成RC、RR级别下快照读的结果不同

  • 在RR级别下的某个事务,对某条记录的第一次快照读会创建一个快照及Read View,将当前系统活跃的其他事务记录起来,此后再调用快照读的时候,还是使用的是同一个Read View。

    • 所以只要当前事务在其他事务提交更新之前使用过快照读 ,那么之后的快照读使用的都是同一个Read View,所以对之后的修改不可见

    • 即RR级别下,快照读生成Read View时,Read View会记录此时所有其他活动事务的快照,这些事务的修改对于当前事务都是不可见的。而早于Read View创建的事务所做的修改均是可见

  • 在RC级别下的,事务中,每次快照读都会新生成一个快照和Read View,这就是我们在RC级别下的事务中可以看到别的事务提交的更新的原因

  • 在RR隔离级别下,则是同一个事务中的第一个快照读才会创建Read View,之后的快照读获取的都是同一个Read View。

  • 正是RC每次快照读,都会形成Read View,所以,RC才会有不可重复读问题。

相关推荐
永卿00126 分钟前
mysql 日志机制
数据库·mysql
wu~9701 小时前
Mysql深入学习:慢sql执行
mysql
先鱼鲨生1 小时前
etcd 的安装与使用
数据库·etcd
crossoverJie2 小时前
StarRocks 如何在本地搭建存算分离集群
数据库·后端
潇凝子潇3 小时前
如何在不停机的情况下,将MySQL单库的数据迁移到分库分表的架构上?
数据库·mysql·架构
Tapdata3 小时前
什么是 Operational Data Hub?它因何而生,又为何能够在当下成为技术共识?
数据库
Seven973 小时前
Mysql的索引数量是否越多越好?为什么?
mysql
这里有鱼汤3 小时前
普通人做量化,数据库该怎么选?
数据库·后端
BOOM朝朝朝4 小时前
Mongo索引
数据库·后端
Java烘焙师5 小时前
架构师必备:实时对账与离线对账
hive·mysql·架构·对账