【Redis】Redis持久化模式RDB

引子

不论把Redis作为数据库还是缓存来使用，他肯定有数据需要持久化，这里我们就来聊聊两种持久化机制。这两种机制，其实是快照与日志的形式。
快照: 就是当前数据的备份，我可以拷贝到磁盘，也可以拷贝到别的服务器，如此一来，万一现有redis的计算机节点被恶意攻击或者被人删库跑路，那么你的原有数据还是可以恢复的。像你的云服务器也有快照功能，被人攻击以后直接拿来恢复就行。
**日志:**其实就类似于我们开发系统的时候用户的操作日志，这里指的是用户的每次写操作日志比如增加key，修改key以及删除key，这些命令都会记录下来形成一个日志文件。那么在需要恢复的时候，只需要执行这个日志文件里的所有命令，就能达到恢复数据的目的。

RDB

RDB就相当于上面的快照形式，是全量备份，这个备份数据里都是二进制文件，也是Redis的默认备份方案。当redis恢复的时候会全量的恢复，此时redis处于阻塞状态。

如上图，这个 dump.rdb 就是当前redis的备份快照数据。你可以尝试把他复制到一个新的redis下，然后启动观察数据是否一致。这个RDB就是在redis启动的时候，他发现有这个rdb，就会载入到内存也就是恢复数据。需要注意，redis启动的时候，如果rdb文件很大，那么会阻塞，直到数据全部

恢复到内存里。

RDB是每隔一段时间做备份的机制。如果因为服务器宕机死机重启，那么内存中的数据就没了，但是redis他会随着linux启动而启动，会从rdb中进行回复。

RDB是每隔一段时间进行备份的，那么我们来看如下图，思考一下:

上图中，Redis会备份RDB到磁盘，那么备份到磁盘的过程是会耗时的，内存中redis的数据越多越大，比如8g内存中有4g都是redis数据，那么在备份到磁盘的时候会有传输过程，有一定的时间损耗，可能几十秒也有可能1分钟多，这个RDB快照并不是瞬间产生的。那么这个时候就有问题了，假设现在是凌晨1点开始备份，由于有时间损耗，01点钟05分产生了RDB文件保存到磁盘，那么会如下问题，到底是哪种:

1.这个RDB文件的内容是凌晨1点的数据?

2.这个RDB文件内容是01点钟01分的数据?

3.这个RDB文件内容是凌晨1点的数据，并且记录了开始备份到结束(1点到1点01分之间)的数据?

其实是这样，redis有两种方式，一个是 save 命令，一个是 bgsave 命令。

save:备份rdb到磁盘，阻塞当前进程，redis不接受任何写操作.

bgsave:fork(创建)一个新的子进程，子进程把rdb数据写入磁盘，写操作由父进程去处理两个进程之间数据隔离，所以rdb的数据不会因为有新的写操作而发生变化。父进程相当于是老板，子进程相当于是手下员工，职能不一样，相互隔离，fork:新的子进程指向的缓存数据和redis父进程一致，所以速度很快。(redis是C语言开发的，本质是指针，指向地址，而不是复制一个新的数据，所以父进程有新的写操作是写到新的内存地址，而子进程指向的地址不变)

所以，最终的数据其实就是凌晨一点的数据.

提问:既然bgsave这么好用，为啥还设计一个save命令呢?

不论是开发游戏还是普通的项目，肯定会有维护期，那么在维护期的时候，就会用到save，直接阻塞，不让新的数据写入，游戏项目是最常见的，直接停服了，所有玩家等着新版本上线后才能重新进
RDB 自动保存机制

如上图，redis的核心配置有这么一段内容，这个是触发bgsave的条件，他是自动的，满足条件就会执行rdb的备份。(要注意，它是 bsave)

如果900秒内发生1次更新，则备份rdb

如果300秒内发生10次更新，则备份rdb

如果60秒内发生10000次更新，则备份rdb
RDB的其他配置

stop-writes-on-bgsave-error
- yes:如果save过程出错，则停止写操作
- no:可能造成数据不一致

rdbcompression
- yes:开启rdb压缩模式
- no:关闭，会节约cpu性能开支

rdbchecksum
- yes:使用CRC64算法校验对rdb进行数据校验，有10%性能损耗
- no:不校验

dbfilename:rdb的默认名称，可以自定 dump.rdb

RDB的优缺点

优点:

*每隔一段时间备份，全量备份，比较适合做冷备。

*灾备简单，可以远程传输到其他服务器,再做恢复

*子进程备份的时候，主(父)进程的写操作可以和子进程隔离，数据互不影响，保证备份数据的的完整性

*相对AOF来说，当有更大文件的时候可以快速重启恢复，恢复速度比较快

缺点

*发生故障时，有可能会丢失最后一次的备份数据

*子进程会有一定的内存消耗，尤其是当有大量新的写操作涌入的时候，那些都会有额外的内存开支

*由于定时全量备份是重量级操作，所以对于实时备份的业务场景，就不适用了

附:关于父子进程对内存的消耗(基于Linux的Fork:copy-on-write)

redis在fork一个子进程的时候，会消耗内存，父子进程在内存上的占用量的表现是一致的，注意这里是表现，并不是说完全的拷贝一份新的内存数据进行备份，如果有10g数据，他也不会完全再复制10g，总共20g，那得多大开销?实际上linux有一个写时复制的技术，copyon write ，就是父子进程共同指向相同的内存地址，数据是一致的。如果父进程处理新的写操作，那么他会复制一个新的副本来进行操作，而子进程他还是处理的当时fork时的快照数据，所以父子进程之间相互不影响,需要注意，早期的fork，子进程会完全拷贝父进程的所有数据状态等内容，这个在如今是灾难性的。

如今的fork是依托操作系统所提供的 copy-on-write 机制。

小节一下

RDB机制适合大量数据的恢复，但是数据的完整性和一致性可能会不足。所以就需要有后续的AOF机制来互补。