TIDB——TIKV——raft

一、raft

定义：1个leader与多个follower的集群叫做1个raft group ，多个raft group也就是multi raft

tikv node中的region有leader，follow之称，region内的数据按照key的顺序排序，存储形式为键值对

场景1：region内无数据时

连续插入数据时，region默认96MB，超过之后，创建下一个逻辑单元 region，逻辑单元的key都是左闭右开，例如[1,1000),[1001.2000)

场景2：region内有数据时

update与delete处理region内的数据，数据可能少于96MB，当小于设定数值（96）时进行region的合并，也有可能多于这个数，当到达144MB时1分为2

leader会把写入请求到日志文件格式<region号_ID，写入请ID>

注：客户端的写入数据只发送给leader，因leader负责读写follower不负责；ID为第几条写入请求，请求按照先后顺序

leader将日志文件存储到rocksdb raft中

将leader raft的日志文件复制给follower内的leader raft

follower复制完毕会给leader给一个回应，大多数follower给出信号，

根据rocksdb raft将数据写入rocksdb kv中

注：用户提交指的是rocksdb kv中的数据

选举概念：term时期，是集群维持关系的周期，无固定长度

关键点：全follower但region都有election timeout（raft-election-timeout-ticks）
具体实现：当谁率先超过这个值时，意识到集群无leader，谁就是candidate，并且term时期数字变大，然后给集群中的region发起选举信号，其它region投票给term大的region，candicate票给自己，票超过集群一半就变为leader

关键点：leader心跳信息传递给follower确认term时期，heartbeat time interval（raft-heartbeat-ticks）
具体实现：但是隔heartbeat time interval所设定时间，leader没有发心跳信息，即leader挂掉，开始下一段term，region率先到heartbeat time interval，谁就是candidate，宕机的leader恢复正常变成candidate，term数大者为leader

region出现同时到达election timeout或者是heartbeat time interval，各自投票给自己，term时期数字增大，变为candidate，要是没有选出，系统进行下一轮投票（设置election timeout为random 数值）

注：ticks是什么？设置raft-base-tick-interval默认1s，那么raft-election-timeout-ticks等于5，就是5s了

raft-election-timeout-ticks不能小于raft-heartbeat-ticks

题外话：

更于2025-12-16 0：42：48