Kafka-服务端-副本同步-源码流程

杂

在0.9.0.0之前，Kafka提供了replica lag.max.messages 来控制follower副本最多落后leader副本的消息数量，follower 相对于leader 落后当超过这个数量的时候就判定该follower是失效的，就会踢出ISR，这里的指的是具体的LEO值。

对应的Kafka 也针对这些场景提供了一些控制的参数：前面提到的replica.lag.max.message（以数量为标准衡量是否落后），还有以时间为衡量标准的replica.lag.time.max（多久没有向leader 请求数据）

这些是0.9.0.0之前的版本，这个实现是可以适应大多数环境的，但是存在一个严重的缺陷，当qps持续上升，请求打满之后，很容易造成同步速率下降或者长时间无响应，进而导致很多follower被踢出ISR（在流量高峰时期会挺常见），这就导致使用者需要在不同的场景定制不同的参数配置，但是什么时候有突发流量什么时候去配置并且令其生效，这个事儿不现实，所以说Kafka这一点算是一个缺陷吧。

0.9.0.0 之后提供了一个更加适合的方式来解决这个问题，采用Kafka 落后于消费进度的时间长度来判断是否踢出ISR，这样有效的避免了在突发流量偶然落后于leader 被不合理的踢出ISR的情况，如果长时间落后于leader 这种情况实际故障是需要去踢的也没问题，也就有效的避免了ISR的反复移进移出所带来的代价。

Replica

leader分区会维护自身（本地副本）以及所有follower副本（远程副本）的相关状态，而follower分区只维护自己的状态（本地副本）。

本地副本的LEO和HW都会更新；远程副本的LEO会更新，HW不会被更新。Leader分区之所以要维护远程副本是为了帮助确定HW。LEO和HW的更新时机：

更新对象	更新时机
leader分区本地副本LEO	接收到生产者发送的消息，写入本地磁盘后，会更新LEO
leader分区远程副本LEO	follower从leader拉取消息时，会告诉leader从哪个位移开始拉，这个位置就会更新到远程副本的LEO
follower分区本地副本LEO	从leader分区拉取消息，写入本地磁盘后，会更新LEO
leader分区本地副本HW	1. 更新本地副本LEO后；2. 更新远程副本LEO后。取本地副本和远程副本LEO中的最小值
leader分区远程副本HW	不会更新
	从leader分区拉取消息，写入本地磁盘后，会更新LEO，比较LEO和leader发来的HW，取两者最小值更新为HW

字段：

scala 复制代码

brokerId：brokerId

topicPartition：类型为TopicPartition，副本对应的分区

log：副本对应的Log对象，远程副本的此字段为空，通过此字段区分是本地副本还是远程副本

highWatermarkMetadata：记录HW的值

logEndOffsetMetadata：本地副本对应LEO值（log's end offset），远程副本该值只在follower fetch的时候更新

logStartOffset：本地副本对应LSO（log's start offset），远程副本该值只在follower fetch的时候更新

lastFetchLeaderLogEndOffset：leader收到follower的FetchRequest时候的LEO值，用来确定follower的lastCaughtUpTimeMs

lastFetchTimeMs：leader收到follower的FetchRequest时候的时间，用来确定follower的lastCaughtUpTimeMs

lastCaughtUpTimeMs：该follower的LEO大于等于此时刻leader的LEO，用来确定该follower相对于该分区ISR的lag

方法：

scala 复制代码

// 通过有无log判断是本地副本还是远程副本
def isLocal: Boolean = log.isDefined
// 获取lastCaughtUpTimeMs
def lastCaughtUpTimeMs = _lastCaughtUpTimeMs
// 
def updateLogReadResult(logReadResult: LogReadResult) {
    ...
  }
  // 对于本地副本，不能直接更新LEO，其LEO由Log.logEndOffsetMetadata字段决定
  private def logEndOffset_=(newLogEndOffset: LogOffsetMetadata) {
    if (isLocal) {
      throw new KafkaException(s"xxx")
    } else {
      logEndOffsetMetadata = newLogEndOffset
      trace(s"xxx")
    }
  }
  // 本地副本和远程副本的LEO获取方式也不同
  def logEndOffset: LogOffsetMetadata =
    if (isLocal)
      log.get.logEndOffsetMetadata
    else
      logEndOffsetMetadata
// LSO的set和get方法与LEO相同，此处省略
// 只有本地副本可以更新HW
  def highWatermark_=(newHighWatermark: LogOffsetMetadata) {
    if (isLocal) {
      if (newHighWatermark.messageOffset < 0)
        throw new IllegalArgumentException("High watermark offset should be non-negative")

      highWatermarkMetadata = newHighWatermark
      log.foreach(_.onHighWatermarkIncremented(newHighWatermark.messageOffset))
    } else {
      throw new KafkaException(s"Should not set high watermark on partition $topicPartition's non-local replica $brokerId")
    }
  }

Partition

Partition负责Replica对象的管理和维护，包括副本角色切换、ISR集合管理等。

字段：

scala 复制代码

topic和partitionId：此Partition对象代表的Topic名称和分区编号。

localBrokerId：当前Broker的id，可以与replicaId比较，从而判断指定的Replica是否表示本地副
本。

logManager：当前Broker上的LogManager对象。
zkClient：操作ZooKeeper的辅助类。

leaderEpoch：该分区Leader副本的年代信息。

leaderReplicaIdOpt：该分区的Leader副本所在broker的id。

inSyncReplicas：Set[Replica]类型，该集合维护了该分区的ISR集合，ISR集合是AR集合的子集。

allReplicasMap：Pool[Int, Replica]类型，维护了该分区的全部副本的集合（AR集合）的信
息。

Partition中的方法按照功能可以划分为下列5类：

获取（或创建）Replica：getOrCreateReplica()方法
副本的Leader/Follower角色切换：makeLeader()方法和makeFollower()方法
ISR集合管理：maybeExpandIsr()方法和maybeShrinkIsr()方法
调用日志存储子系统完成消息写入：appendRecordsToLeader()方法
检测HW的位置：checkEnoughReplicasReachOffset()方法

上述五类方法为ReplicaManager的实现提供了基础支持。其他较为简单的辅助方法不再做详细介绍，请

读者参考源码学习。

获取或创建Replica（done）

getOrCreateReplica()方法主要负责在AR集合（assignedReplicaMap）中查找指定副本的Replica对象，如

果查找不到则创建Replica对象并添加到AR集合中管理。如果创建的是Local Replica，还会创建（或恢复）

对应的Log并初始化（或恢复） HW。 HW与Log. recoveryPoint类似，也会需要记录到文件中保存，在每个log

目录下都有一个replication-offset-checkpoint文件记录了此目录下每个分区的HW。在ReplicaManager启动时

会读取此文件到highWatermarkCheckpoints这个Map中，之后会定时更新replication-offset-checkpoint文件。

副本角色切换

Broker会根据KafkaController发送的LeaderAndISRRequest请求控制副本的Leader/Follower角色切换。

Partition.makeLeader()方法是处理LeaderAndISRRequest中比较重要的环节之一，它会将Local Replica设置成

Leader副本。Partition.makeFollower()方法与Partition.makeLeader()方法类似，也是处理LeaderAndISRRequest的环节之一。它的功能是按照PartitionState指定的信息，将Local Replica设置为Follower副本。

ISR集合管理（done）

Partition除了对副本的Leader/Follower角色进行管理，还需要管理ISR集合。随着Follower副本不断与Leader副本进行消息同步， Follower副本的LEO会逐渐后移，并最终追赶上Leader副本的LEO，此时该Follower副本就有资格进入ISR集合。 Partition.maybeExpandIsr()方法实现了扩张ISR集合的功能，KafkaApis.handleFetchRequest()处理fetch请求的时候会判断该fetch是否来自follower，如果来自follower则会调用Partition.updateFollowerLogReadResults() -> Partition.maybeExpandIsr()。

在ReplicaManager中使用定时任务周期性地调用maybeShrinkIsr ()方法检查ISR集合中Follower副本与Leader副本之间的同步差距，并对ISR集合进行缩减。有一点需要读者注意，在ISR集合发生增减的时候，都会将最新的ISR集合保存在ZooKeeper中，具体的保存路是：/brokers/topics/ $topic_name$ /partitions/ $partitionId$ /state。后面介绍的KafkaController会监听此路径中数据的变化

追加消息（done）

调用日志存储子系统完成消息写入比较简单，后续补充。

内部会调用Log.appendAsLeader()执行真正的写入操作。

然后调用ReplicaManager.tryCompleteDelayedFetch()尝试完成DelayedFetch。

然后调用maybeIncrementLeaderHW()尝试更新高水位HW（ISR可能缩容为1，这时HW就会更新）。

如果高水位HW有变动，则尝试完成所有的Delay操作（DelayedFetch、DelayedProduce、DelayedDeleteRecords）。

检测HW的位置（done）

在检测DelayedProduce的执行条件时，简单提到了Partition.checkEnoughReplicasReachOffset()方法，此方法会检测其参数指定的消息是否已经被ISR集合中所有Follower副本同步。

该方法会判断当前leader副本的HW是否已经大于等于传入的偏移量，如果是则说明已经同步，返回true和0错误码，否则还没有同步，返回false和0错误码。注意当某个topic设置了min.insync.replicas参数，如果insync个数不满足，但是HW已经满足，则会返回true和一个20错误码。

ReplicaManager

ReplicaManager的功能是管理一个Broker范围内的Partition信息。ReplicaManager的实现依赖于日志存储子系统、DelayedOperationPurgatory、KafkaScheduler等组件，底层依赖于Partition和Replica。

字段：

scala 复制代码

logManager：LogManager对象，对分区的读写操作都委托给底层的日志存储子系统。

scheduler：KafkaScheduler对象，用于执行ReplicaManager中的周期性定时任务。在ReplicaManager
中总共有4个周期性任务，它们分别是highwatermark-checkpoint任务、isr-expiration任务、isrchange-
propagation、shutdown-idle-replica-alter-log-dirs-thread任务。

controllerEpoch：记录KafkaController的年代信息，当重新选举Controller Leader时该字段值会递
增。之后，在ReplicaManager处理来自KafkaController的请求时，会先检测请求中携带的年代信息
是否等于controllerEpoch字段的值，这就避免接收旧Controller Leader发送的请求。这种设计方式在
分布式系统中比较常见。

localBrokerId：当前Broker的id，主要用于查找Local Replica。

allPartitions：Pool[(String, Int), Partition]类型，其中保存了当前Broker上分配的所有Partition信息。

replicaFetcherManager：在ReplicaFetcherManager中管理了多个ReplicaFetcherThread线程，
ReplicaFetcherThread线程会向Leader副本发送FetchRequest请求来获取消息，实现Follower副本与
Leader副本同步。ReplicaFetcherManager对象在ReplicaManager初始化时被创建，后面会详细介绍
ReplicaFetcherManager与ReplicaFetcherThread的功能。

highWatermarkCheckpoints：Map[String, OffsetCheckpoint]类型，用于缓存每个log目录与
OffsetCheckpoint之间的对应关系，OffsetCheckpoint记录了对应log目录下的replication-offset-checkpoint文件，该文件中记录了data目录下每个Partition的HW。ReplicaManager中的
highwatermark-checkpoint任务会定时更新replication-offset-checkpoint文件的内容。

isrChangeSet：Set[TopicAndPartition]类型，用于记录ISR集合发生变化的分区信息。

delayedProducePurgatory、 delayedFetchPurgatory：用于管理DelayedProduce和DelayedFetch的
DelayedOperationPurgatory对象。

zkClient：操作ZooKeeper的辅助类。

角色切换

在Kafka集群中会选举一个Broker成为KafkaController的Leader，它负责管理整个Kafka集群。 Controller Leader根据Partition的Leader副本和Follower副本的状态向对应的Broker节点发送LeaderAndIsrRequest，这个

请求主要用于副本的角色切换，即指导Broker将其上的哪些分区的副本切换成Leader角色，哪些分区的副本切换成Follower角色。

LeaderAndIsrRequest首先由KafkaAPis.handleLeaderAndIsrRequest()方法进行处理，其核心逻辑是通过

ReplicaManager提供的becomeLeaderOrFollower()方法实现的，而becomeLeaderOrFollower()又依赖于上一小节介绍的Partition.makeLeader()方法和makeFollower()方法调用链路：

追加/读取消息（done）

当Local Replica切换为Leader副本之后，就可以处理生产者发送的ProducerRequest，将消息写入到Log中。

调用链路：KafkaApis.handleProduceRequest() -> ReplicaManager.appendRecords() -> ReplicaManager.appendToLocalLog() -> Partition.appendRecordsToLeader() -> Log.appendAsLeader()

主要逻辑在 Partition.appendRecordsToLeader()中，之前已经分析，不再展开。

Leader副本的另一个重要功能是处理FetchRequest进行消息读取。

调用链路：KafkaApis.handleFetchRequest() -> ReplicaManager.fetchMessages() -> ReplicaManager.readFromLocalLog() -> Log.read()

这里主要分析readFromLocalLog()方法，在该方法中会循环遍历拉取所有指定分区中的数据。fetch请求中会指定两个参数，一个是单次最多拉取多少数据，一个是单次单分区最多拉取多少数据（对于follower的fetch这两个默认值分别为10MB和1MB，配置项为replica.fetch.response.max.bytes和replica.fetch.max.bytes，对于消费者客户端还未确认todo）。因此，每个分区最多拉取1MB，当从多个分区中累计拉取到10MB后就会返回 。另外需要注意当要读取的分区中的单条消息大于1MB时，如果已经从其他分区读到了数据则不会再读取，否则会读取一条大消息。

副本同步（done）

Follower副本与Leader副本同步的功能由ReplicaFetcherManager组件实现。具体的同步逻辑交由ReplicaFetcherThread线程处理。

AbstractFetcherManager是ReplicaFetcherManager的抽象类，它的addFetcherForPartitions()方法中，会为分区添加fetch线程，每个broker的fetch线程个数由num.replica.fetchers确定，默认为1。注意这里的fetch线程个数是向单个broker同步数据的线程数，实际环境中都是向n个broker拉取数据的，则真实fetch线程个数是num.replica.fetchers乘以n。比如，3个节点的kafka，kafka0会起1个fetch1线程从kafka1中拉取消息，起1个fetch2线程从kafka2中拉取消息。

还要注意，num.replica.fetchers的值并不是真正的fetch线程个数，下面的方法是将某个分区分配给某个fetcher线程的代码。可以看到是根据topic的hash值和partitionId确定一个key，然后根据该key查找map中对应的fetcher线程（没有则新建）进行关联。首先，fetcher线程个数最多为分区个数，即使我们设置了num.replica.fetchers为10000，也不会有10000个fetch线程，其次，即使num.replica.fetchers远小于分区数，实际fetcher线程数可能比num.replica.fetchers更少。试想这样一种场景，num.replica.fetchers为12，Utils.abs(31 * topic.hashCode() + partitionId) % numFetchersPerBroker中的取值没有3和4，则只会有10个fetcher线程。

scala 复制代码

  private[server] def getFetcherId(topic: String, partitionId: Int) : Int = {
    lock synchronized {
      Utils.abs(31 * topic.hashCode() + partitionId) % numFetchersPerBroker
    }
  }

分区和fetch线程对应后，就会启动该fetch线程。

核心业务代码在AbstractFetcherThread的doWork()方法中：

scala 复制代码

  override def doWork() {
    maybeTruncate()
    val fetchRequest = inLock(partitionMapLock) {
      val ResultWithPartitions(fetchRequest, partitionsWithError) = buildFetchRequest(states)
      if (fetchRequest.isEmpty) {
        trace(s"There are no active partitions. Back off for $fetchBackOffMs ms before sending a fetch request")
        partitionMapCond.await(fetchBackOffMs, TimeUnit.MILLISECONDS)
      }
      handlePartitionsWithErrors(partitionsWithError)
      fetchRequest
    }
    if (!fetchRequest.isEmpty)
      processFetchRequest(fetchRequest)
  }

主要是两个方法：buildFetchRequest()和processFetchRequest()。

buildFetchRequest()是构造拉取请求，有两个参数值得注意，一个是replica.fetch.response.max.bytes，指定了单次最多拉取多少数据，默认是10MB，一个是replica.fetch.max.bytes，指定了单次单分区最多拉取多少数据，默认1MB。

processFetchRequest()是发送请求并对响应进行处理，主要是两个抽象方法fetch()和processPartitionData()。均在ReplicaFetcherThread中实现。fetch()中通过ReplicaFetcherBlockingSend.sendRequest()实现请求的发送并拿到响应，在具体实现中，发送完响应后会一直在while循环中执行client.poll()方法等待，直到拿到响应。processPartitionData()是将拿到的响应数据追加到本地Log，并更新follower副本的HW字段。

在正常逻辑下fetch()会调用processPartitionData()方法追加数据，如果在fetch()过程中遇到了一些异常情况，leader分区会返回错误码Errors.OFFSET_OUT_OF_RANGE，fetch()会调用handleOffsetOutOfRange()方法进行处理。

Errors.OFFSET_OUT_OF_RANGE对应两种情况：

一种是follower的LEO小于leader的logStartOffset。出现的场景：follower下线很久后上线，此时leader的老数据日志已经删了很多，当前的logStartOffset大于follower的LEO。（A）
一种是follower的LEO大于leader的LEO。出现的场景：follower下线，leader继续写入消息；follower上线开始同步消息，但还没同步到能进入ISR集合，此时ISR集合中的副本全部下线，follower变成了leader；旧leader重新上线后变成follower，此时follower的LEO大于新leader的LEO**（B）**

handleOffsetOutOfRange()在实际处理时，会重新发送一个请求获取leader分区的LEO，在此时间段内leader分区可能不断有消息写入，因此第2种情况在当下处理的时候又会变为两种情况：

和之前一致，follower的LEO大于leader的LEO**（B1）**
因为leader分区不断写入消息，此时follower的LEO已经小于leader的LEO**（B2）**

对于情形B1，数据会截断到leader的LEO，并重新发送fetch请求，offset以leader的LEO为准。对于情形B2，会重新发送fetch请求，offset以follower的LEO为准。对于情形A，会删除所有的数据日志，并重新发送fetch请求，以leader的logStartOffset为准。

注意，对于情形B1和B2，都是由于unclean leader election的场景引起的，都有可能出现副本中某一段数据不一致的情况。（在2.0.1版本中没做处理）

副本同步全流程

对于服务端来说，如果follower的拉取请求过来时，没有数据可以返回，则会构造DelayedFetch请求。一方面会放入SystemTimer中，超时后会返回。另一方面会放入Watchers中，等待触发完成时机。

触发时机：主分区中有数据写入时。

对于服务端来说，客户端的生产请求过来，当ack=-1时，会生成DelayedProduce，需要等待follower同步成功后，才能返回响应。DelayedProduce也会放入SystemTimer和Watchers中。

触发时机：接收到follower的fetch请求，或者分区的HW发生了变化

时序如下：

服务端处理客户端发送的生产请求
服务端生成DelayedProduce，等待follower同步数据
follower发送fetch请求，请求消息数据
服务端接收fetch请求，获得follower当前的LEO，更新HW，判断DelayedProduce当前还未同步成功
follower拿到消息数据返回，追加到自己的Log中，然后继续发送下一个fetch请求
服务端接收fetch请求，获得follower当前的LEO，更新HW，判断DelayedProduce已经同步成功，完成DelayedProduce，放入responseQueue中。

假设某个时刻，leader的HW和LEO都为1000，follower的LEO也为1000。生产者单次请求写入了2条消息。

关闭副本（done）

当Broker接收到来自KafkaController的StopReplicaRequest请求时，会关闭其指定的副本，并根据

StopReplicaRequest中的字段决定是否删除副本对应的Log。 在分区的副本进行重新分配、关闭Broker等过程中都会使用到此请求，但是需要注意的是， StopReplicaRequest并不代表一定会删除副本对应的Log，例如shutdown的场景下就没有必要删除Log。而在重新分配Partition副本的场景下，就需要将旧副本及其Log删除。

定时任务（done）

highwatermark-checkpoint任务会周期性地记录每个Replica的HW并保存到其log目录中的replicationoffset-checkpoint文件中。 isr-expiration任务会周期性地调用maybeShrinkIsr()方法检测每个分区是否需要缩减其ISR集合。 isr-change-propagation任务会周期性地将ISR集合发生变化的分区记录到ZooKeeper中。

highwatermark-checkpoint

这个定时任务是在ReplicaManager.becomeLeaderOrFollower()中启动的。目的是确保所有的分区都已经完全populated来避免奇怪的race conditions。

运行间隔由配置项replica.high.watermark.checkpoint.interval.ms指定，默认为5000ms。

主体逻辑在ReplicaManager.checkpointHighWatermarks()方法中实现。

scala 复制代码

  // Flushes the highwatermark value for all partitions to the highwatermark file
  def checkpointHighWatermarks() {
    val replicas = nonOfflinePartitionsIterator.flatMap { partition =>
      val replicasList: mutable.Set[Replica] = mutable.Set()
      partition.getReplica(localBrokerId).foreach(replicasList.add)
      partition.getReplica(Request.FutureLocalReplicaId).foreach(replicasList.add)
      replicasList
    }.filter(_.log.isDefined).toBuffer
    // 获取全部的Replica对象，按照副本所在的log目录进行分组
    val replicasByDir = replicas.groupBy(_.log.get.dir.getParent)
    for ((dir, reps) <- replicasByDir) {
      // 获取当前log目录下的全部副本的HW
      val hwms = reps.map(r => r.topicPartition -> r.highWatermark.messageOffset).toMap
      try {
        // 将HW更新到log目录下的replication-offset-checkpoint文件中
        highWatermarkCheckpoints.get(dir).foreach(_.write(hwms))
      } catch {
        case e: KafkaStorageException =>
          error(s"Error while writing to highwatermark file in directory $dir", e)
      }
    }
  }

isr-change-propagation、isr-expiration和shutdown-idle-replica-alter-log-dirs-thread

这3个定时任务是kafka启动的时候就开始的。具体的调用栈为：

KafkaServer.startup() -> ReplicaManager.startup()。

isr-change-propagation运行间隔为2500ms。

isr-expiration运行间隔由replica.lag.time.max.ms/2指定，默认为10000/2 ms。也即一个follower分区在已经落后之后最多可以在isr中存在1.5倍的replica.lag.time.max.ms时间。内部调用Partition.maybeShrinkIsr()方法。

shutdown-idle-replica-alter-log-dirs-thread运行间隔为10000ms。

MetadataCache（done）

MetadataCache是Broker用来缓存整个集群中全部分区状态的组件。 KafkaController通过向集群中的Broker发送UpdateMetadataRequest来更新其MetadataCache中缓存的数据，每个Broker在收到该请求后会异步更新MetadataCache中的数据。

字段：

scala 复制代码

cache： Map[String,Map[Int, UpdateMetadataRequest.PartitionState]]类型， 记录了每个分区的状态， 其中使用PartitionState记录Partition的状态。外层map的key为topic，内层map的key为分区号。

aliveBrokers： Map[Int, Broker]类型， 记录了当前可用的Broker信息， 其中使用Broker类记录每个存活Broker的网络位置信息（host、 ip、 port等） 。

aliveNodes： Map[Int,Map[ListenerName, Node]]类型， 记录了可用节点的信息

UpdateMetadataRequest由KafkaApis.handleUpdateMetadataRequest()方法处理，它直接将请求交给ReplicaManager.maybeUpdateMetadataCache()方法处理。

MetadataCache.updateCache()方法中完成了对aliveBrokers、aliveNodes、 cache字段的更新。

生产者和消费者中使用Metadata对象缓存Kafka集群的元信息，在 Metadata更新时会向服务端发送MetadataRequest。 MetadataRequest首先由KafkaApis. handleTopicMetadataRequest()方法进行处理。

在KafkaApis.getTopicMetadata()方法中完成对MetadataCache的查询，同时还会根据配置以及Topic的名称决定是否自动创建未知（MetadataCache查找不到）的Topic。

总结

num.replica.fetchers 单个broker的拉取线程，默认1

replica.fetch.response.max.bytes 单次最多拉取多少数据，默认10MB

replica.fetch.max.bytes 单次单分区最多拉取多少数据，默认1MB