MongoDB的WiredTiger存储引擎

作者：太阳

从MongoDB 3.2 开始，MongoDB实例默认的存储引擎为WiredTiger，WiredTiger存储引擎具体以下几大优点：

文档级并发

将数据持久化到磁盘

快照和checkpoint

数据压缩

本地数据加密

一、文档级别并发

1、WiredTiger使用文档级别并发，意味着在同一时间，MongoDB实例允许多个对不同文档间的写操作并发执行（复制应用oplog时同样可以做到文档级并发应用）。

2、对于读写操作，MongoDB使用乐观并发控制，WiredTiger仅仅会在数据库或者集合上添加意向锁。

3、一些全局的操作，包括一些涉及多个数据库的操作，仍然需要全局锁。如drop一个集合，仍然需要数据库级别的x锁。

二、journal

2.1 Journal的基本概念

1、WiredTiger使用WAL(journal)和checkpoiont来保证数据的持久性。

2、journal日志记录了两次checkpoint之间的所有数据变更，当MongoDB实例意外宕机时，先恢复实例到last checkpoint时间，然后在journal中找到last checkpoint的唯一标识，开始重放last checkpoint之后的所有数据变更。

3、journal默认使用snappy进行压缩，也可以在配置文件中通过storage.wiredTiger.engineConfig.journalCompressor参数还设置相关的压缩配置。如果一条记录小于128KB，默认不对该记录进行压缩。

4、对于MongoDB单节点，可以使用 storage.journal.enabled 关闭journal，若不开启journal，单数据库宕机后只能将数据恢复到last checkpoint。

2.2 Journal数据恢复

journal属于WiredTiger的WAL的日志，并不是MongoDB实例的日志文件，如果MongoDB实例意外宕机，可以journal可以恢复last checkpoint之后的数据变更操作。journal日志恢复流程大致如下：

1、将数据恢复到last checkpoint；

2、查看data file中last checkpoint的标识符；

3、查看journal日志中last checkpoint的标识符；

4、重放last checkpoint之后的journal日志进行数据恢复（数据最大丢失CommitIntervalms的数据）。

也就是所，当我们通过journal file重放时，丢失的数据就是journal buffer但是没有写入journal file的这部分数据。

2.3 Journaling Process机制

1）在开启journal日志的情况下，对数据的每条更新，journal都会记录该更新操作以及其索引的更新。

2）MongoDB会先将数据变更的记录写入到journal buffer中，每条记录（最大128KB）都会被缓存。

3）后续WiredTiger会将journal buffer中的数据写入disk：

从3.2版本开始，MongoDB实例每50ms将journal buffer中的数据刷到磁盘；

当写操作的write concern指定为j:true时，WiredTiger会强制将该写操作写入磁盘；

journal file文件大小限制为100M，当达到限制大小时会创建一个新的journal文件，WiredTiger将之前journal file中的记录写入到磁盘。

2.4 journal file

1）MongoDB会在dbpath路径下创建一个journal的子目录用来存放journal file

2）journal file包括每个客户端发起的所有的数据变更操作

journal记录了包括数据的变更以及索引的变更；

每条记录都有一个唯一的标识；

WiredTiger存储引擎下最小的journal记录为128 bytes.

3）默认情况下，journal file使用snappy进行压缩，可以通过storage.wiredTiger.engineConfig.journalCompressor进行配置

4）journal file大小限制为100MB，WiredTiger会预分配jounal file，且WiredTiger仅仅只维护last checkpoint之所需要的文件

三、snapshots and checkpoints

1、WiredTiger存储引擎支持MVCC，snapshots相当于某个时间点的内存数据的一致性视图。

2、当数据落盘时，WiredTiger将snapshot中的数据一致性写入data file中，并且将当前已经持久化的data file作为最近一次的checkpiont点。checkpoint点可以作为数据恢复的一个时间点。

3、从3.6版本开始，WiredTiger默认每60s刷新一次checkpoint（每60将snapshot刷盘一次）；在3.6版本之前WireTiger默认每60或者journal达到2G时刷新一次checkpoint。

4、只有当新的checkpoint点创建成功后，WigerdTiger才会删除之前的checkpoint。

5、使用WigerdTiger存储引擎，在不开启journal日志的情况下，可以将数据恢复到最后一次checkpoint时刻，但是checkpoint之后的数据无法进行恢复（通过journal进行恢复）。

四、Compression数据压缩

1、在WiredTiger存储引擎下，可以对集合数据以及所有进行压缩，但是压缩会消耗一定的CPU资源。

2、默认情况下，WiredTiger使用snappy对集合数据进行压缩，使用prefix对索引数据进行压缩，在集合和索引创建时，也可以单独指定。

3、默认情况下，journal日志也会使用snappy进行压缩处理。

五、内存使用

1、WiredTiger下，MongoDB使用会利用WiredTiger内部缓存和文件系统缓存。

2、从MongoDB 3.4版本开始，WiredTiger内部缓存默认为50% of (RAM - 1 GB) 或者 256 MB 之间的最大值。

3、WiredTiger内部缓存相对于磁盘格式化的不同：

数据使用文件系统缓存与磁盘格式化是一样的，文件系统缓存主要是用来降低磁盘的IO消耗。

集合索引信息缓存到WiredTiger内部缓存相对磁盘格式化是不同的，但是也主要是为了减少对内存的使用。

集合数据在WiredTiger内部缓存中是不压缩的，相对于磁盘格式也是不同的，块压缩可以极大的节省磁盘空间的使用，但是，数据必须先解压，然后才能供server层使用。

4、对比文件系统缓存，MonogoDB会尽可能使用WiredTiger内部缓存以及其他线程空闲出来的内存。

5、若MongoDB实例内存使用率偏高，可以使用storage.wiredTiger.engineConfig.cacheSizeGB and --wiredTigerCacheSizeGB来控制。

六、磁盘使用

1、WiredTiger存储引擎可以重用已删除的文档（remove操作），这些空间出来的空间不会返回给操作系统。

2、可以通过db.collection.stats()来查看集合当前空间使用情况。

3、对于碎片化比较严重的集合，可以使用compact来进行处理。

更多技术信息请查看云掣官网https://yunche.pro/?t=yrgw