WAL,全称为 Write-Ahead Logging(预写日志),是 etcd 中用于确保数据持久性和恢复能力的关键机制。WAL 的主要目的是在数据变更被应用到持久存储之前,先将这些变更记录到一个日志文件中。这样可以在系统崩溃或意外中断后,通过重放这些日志来恢复尚未持久化到数据库中的数据变更,从而保证数据的一致性和可靠性。
1. .wal文件
WAL 要么处于读取模式,要么处于追加模式,但不能同时处于两种模式。新创建的 WAL 处于追加模式,并准备好追加记录。刚打开的 WAL 处于读取模式,并准备好读取记录。在读取出所有之前的记录后,WAL 将准备好进行追加操作。
创建.wal文件时,先在临时目录中初始化文件并写入元数据,通过锁定和预分配空间准备就绪,再将临时目录重命名为目标目录,并同步父目录确保操作持久化。
文件都是先写再分割,切分文件的时候也一样,先在临时文件写入必要数据,再进行重命名。
为了提高效率,会预先创建文件,等到使用的时候可以直接使用。
什么时候会调用sync进行刷盘?
- 旧文件被切分后
- 临时文件重名名
- 服务器关闭
- raft任期发生变化,有新日志
- 保存快照后
一个wal文件如下图所示
2. record 类型
record的data都是下述的结构protobuf序列化后得到
record根据type的类型可以分为以下5种:
go
MetadataType int64 = iota + 1
EntryType
StateType
CrcType
SnapshotType
MetadataType记录的是集群元数据
ini
message Metadata {
optional uint64 NodeID = 1 [(gogoproto.nullable) = false];
optional uint64 ClusterID = 2 [(gogoproto.nullable) = false];
}
EntryType记录的是日志
arduino
type Entry struct {
Term uint64 `protobuf:"varint,2,opt,name=Term" json:"Term"`
Index uint64 `protobuf:"varint,3,opt,name=Index" json:"Index"`
Type EntryType `protobuf:"varint,1,opt,name=Type,enum=raftpb.EntryType" json:"Type"`
Data []byte `protobuf:"bytes,4,opt,name=Data" json:"Data,omitempty"`
}
HardStateType记录的是集群持久化的状态
go
type HardState struct {
Term uint64 `protobuf:"varint,1,opt,name=term" json:"term"`
Vote uint64 `protobuf:"varint,2,opt,name=vote" json:"vote"`
Commit uint64 `protobuf:"varint,3,opt,name=commit" json:"commit"`
}
SnapshotType记录的快照的元数据
ini
message Snapshot {
optional uint64 index = 1 [(gogoproto.nullable) = false];
optional uint64 term = 2 [(gogoproto.nullable) = false];
// Field populated since >=etcd-3.5.0.
optional raftpb.ConfState conf_state = 3;
}
CrcType 记录上一个Record的Crc,只有.wal 文件的开头会使用