数据库的读写分离技术MVCC

本文纯理论学习,无知之处请给与包涵! 写作不易,觉得好,麻烦请点广告支持下分享一下!

作者不支持读者的任何抽象行为，阅读本文产生的任何后果，作者概不负责

MVCC 英文全称叫多版本并发控制协议. 以前做ORACLE DBA时候没有听说过.后来转到MYSQL DBA就听说了. 另外还有个WAL,这个是POSTGRE SQL的叫法. 这些概念不就是早就实现过得呀! ORACLE REDO,先写日志,后写数据.凡是都要记录日志.ORACLE的日志量可大了, REDO要保护系统表空间,还有辅助表空间,用户表空间,以及UNDO表空间的数据改变前的向量.

ORACLE UNDO 没有听人说 UNDO实现了MVCC.老盖出了那么多书,好像也没有提过.也许我人老了记忆性差.

MVCC 包含两方面：

Multi-Versioning，MV：生成多版本的数据内容，使得不同请求（读写）可以获取响应版本数据。
Concurrency Control，CC：并发控制，使得并行执行的内容能保持串行化结果。

并发控制,我怎么感觉不出来呢? 是在说读的并发控制吗? 读也需要并发控制吗? 我以为是用MUTE,LATCH等内存锁.

难道是写的并发控制? 这有可能

行的元组

数据库中每个数据的数据头（Header）会包含数据的 metadata 信息，这些信息被称为行的元组

txn-id: 数据的TID，用以实现写锁。begin-ts & end-ts：标识该元组版本的生命起止时间。pointer：指向同一行数据相邻（新/旧）版的指针，依靠指针，版本数据可以形成一个单向链表

上面4个字段,只是意思意思下, ORACLE只有两个一个锁标志,另外一个是回滚指针. MYSQL会多了些字段.完成是否可见性(ReadView) 查询活跃事务列表,判断本事务ID..

并发控制协议

并发控制协议解决的是不同事务间执行顺序和结果的问题（而不是多版本数据），也就是通过锁或者时间顺序 保持事务读写数据的串行性说白了就是修改事务,ORACLE的 DML语句写的并发控制.论文介绍了四种协议：Timestamp Ordering 、Two-phase Locking 、Concurrency Control 和 Serialization Certifier我在这里不介绍论文,太理论,太烧脑. 我们知道ORACLE直接在行头用锁控制

ORACLE 通过行锁标志+块的事务槽完成DML事务的并发控制.

多版本存储读写分离核心

多版本存储技术决定了各种不同DB 读写分离实现细节

1 表内存储和表外存储

2 整行存储,修改列增量存储

ORACLE和MYSQL 采用表外+列增量存储

SQL SERVER 采用表外+整行存储

POSTGRE SQL 采用表内+整行存储

表内+整行存储:

即使数据行中只有少量字段发生了变更。另外，如果表中带有非内联数据,如BLOB、TEXT字段，即使事务没有修改它，也会导致引入大量的重复，导致表数据膨胀。Postgres表膨胀这样也是原因之一

SQL SERVER 采用表外+整行存储

既然行版本控制，是通过在读写并发时，让读会话去读取历史行版本数据，从而避免阻塞等待，那么这些历史行数据，存储在什么地方？

答案是： tempdb 数据库！

ORACLE和MYSQL 采用表外+列增量存储

这种方案对于更新操作很理想，因为减少了内存的分配。但是对于偏向与读的场景负担大。当进行获取一个元组的多个属性的读操作时，数据库需要遍历版本链，必须从各个字段的版本数据链中获取到对应版本的字段值，再进行拼凑，这就带来了一定的额外开销。我们拿ORACLE 来说, 看图回滚指针存在块的头部,也就是说更新某行的某个列,就要修改块头的UNDO地址, 那么数据块有很多行,很多列.那么这个UNDO地址就修改很频繁. 这数据块的UNDO历史版本就很长. 当某个SELECT想要读取它需要的数据时候,需要遍历这个数据块的历史链条.越过很多不是该行的修改版本.

为此这表外+列增量方式还需要从当前块或者行来逆历史版本共同构造出CR块或者CR行

其实最佳的应该是SQLSERVER 表外+整行存储. 如果对TEXT,BLOB做下优化就完美了.如果没有修改TEXT,BLOB字段,那么就复制基本行去历史区域.

如果修改了就一起复制过去历史区域. 第一次做一下FULL PAGE.或者其它什么方式进行优化或者在TEXT,BLOB页增加版本控制的字段.

最后就是回滚覆盖版本太长了是个问题, 不需要的旧版本应该清理掉. ORACLE 经典的错误

**Oracle ORA-01555

这在ORACLE 11G 以前是个头痛的事情,后来ORACLE根据查询最长时间的SELECT,指定回滚段保留时间,这又导致UNDO的膨胀.
它有三种状态来管理生命周期，分别是ACTIVE UNEXPIRED EXPIRED，
活跃事务的段总是ACTIVE状态；
已完成事务的，但是在UNDO_RETENTION周期内的是UNEXPIRED状态；
已完成事务的UNDO，但已经过了UNDO_RETENTION保留周期的是EXPIRED状态。**