文章目录
文档用途
MVCC机制简介,方便大家理解MVCC机制是什么。
详细信息
一、是什么
MVCC,Multi-Version Concurrency Control,多版本并发控制。
一句话讲,MVCC就是用同一份数据临时保留多版本的方式,实现并发控制。它可以避免读写事务之间的互相阻塞,相比通常的封锁技术可极大的提高业务的并发性能。
二、为什么
为何需要MVCC
如果有人从数据库中读数据的同时,有另外的人写入数据,有可能读数据的人会看到『半写』或者不一致的数据。有很多种方法来解决这个问题,叫做并发控制方法。最简单的方法,通过加锁,让所有的读者等待写者工作完成,但是这样效率会很差。MVCC 使用了一种不同的手段,每个连接到数据库的读者,在某个瞬间看到的是数据库的一个快照,写者写操作造成的变化在写操作完成之前(或者数据库事务提交之前)对于其他的读者来说是不可见的。
当一个 MVCC 数据库需要更一个一条数据记录的时候,它不会直接用新数据覆盖旧数据,而是将旧数据标记为过时(obsolete)并在别处增加新版本的数据。这样就会有存储多个版本的数据,但是只有一个是最新的。这种方式允许读者读取在他读之前已经存在的数据,即使这些在读的过程中半路被别人修改、删除了,也对先前正在读的用户没有影响。这种多版本的方式避免了填充删除操作在内存和磁盘存储结构造成的空洞的开销,但是需要系统周期性整理(sweep through)以真实删除老的、过时的数据。
三、如何实现
MVCC的实现方法有两种:
1.写新数据时,把旧数据移到一个专门的地方(如回滚段),其他人读数据时,从回滚段中把旧数据读出来。
2.写数据时,旧数据不删除,把新数据插入。
PostgreSQL使用的是第二种方法,Oracle数据库和MySQL innodb引擎使用一种。
比较:
优点:
回滚可以立刻完成,无论进行了多少操作
数据可以进行很多更新,不必担心需要保证回滚段不被用完
缺点:
旧版本数据需要清理
旧版本数据过多导致查询变慢
四、优缺点及解决方案
MVCC实现了一种期待:读永远不堵塞写。但是也带来了一些问题:
1、因为不同的事务会看到不同版本的记录,所以PostgreSQL连那些可能过期的数据也要保留着;
当UPDATA时,真正地创建了一行新记录,而DELETE时,并不会真正地删除一行旧记录;
最终数据库中会存在一些对有事务永远不可见的记录,称作dead rows。
2、事务ID只能增加,它是个32bit,支持大约40亿个事务,达到最大值会从0重新开始;
这样带来一个逻辑问题:突然所有记录都变成了发生在将来的事务所产生的,而所有新事物也都没有办法访问这些旧记录了。
- 解决方法:VACUUM
PostgreSQL自带了auto_vacuum守护进程会在一个可配置的周期内自动执行清理,解决了这两个问题;
使用者需要留意这个auto_vacuum,以免发生不想要的结果;
vacuum命令也可以手动执行。