Kafka Broker 端用于管理日志目录(Log Directory)迁移和查询 的核心逻辑,分别对应两个关键 API:
alterReplicaLogDirs(...):实现 KIP-113 中的 ALTER_REPLICA_LOG_DIRS 请求,用于将某个分区的日志从一个磁盘目录迁移到另一个。describeLogDirs(...):实现 DESCRIBE_LOG_DIRS 请求,用于查询每个日志目录中各分区的存储状态(大小、滞后等)。
下面我将从 设计目标、执行流程、关键机制、典型场景 四个维度帮你深入理解。
🧠 一、为什么需要这些功能?
背景
Kafka 支持配置多个 log.dirs(例如挂载多块 SSD),但默认情况下:
- 分区在创建时会 随机分配到一个在线目录
- 后续无法更改其物理位置
这会导致问题:
- 某块磁盘快满了,但其他磁盘空闲
- 需要将热分区迁移到更快的 NVMe 盘
- 磁盘故障后恢复,需重新平衡数据
✅ KIP-113 引入了"动态日志目录迁移"能力,允许管理员在线迁移分区日志。
🔧 二、alterReplicaLogDirs:迁移日志目录
📌 方法作用
将指定分区(TopicPartition)的日志文件 从当前目录迁移到目标目录 (
destinationDir)。
🔄 执行流程详解
Step 1️⃣:参数校验
scala
if (Log.logFutureDirName(...).size > 255) → InvalidTopicException
if (!logManager.isLogDirOnline(destinationDir)) → KafkaStorageException
- 防止因 topic 名过长导致文件名超限(Linux 文件名限制)
- 目标目录必须处于 online 状态(即未被标记为 offline)
Step 2️⃣:检查分区当前状态
scala
getPartition(topicPartition) match {
case Online(partition) => ...
case Offline => throw
case None => // 分区尚未创建(比如刚创建 topic,但还没选举 Leader)
}
关键点:分区可能还未创建!
- 如果 Broker 还没收到该分区的
LeaderAndIsrRequest(即还没成为副本) - 则不能立即迁移,但可以 预设"偏好目录"
scala
logManager.maybeUpdatePreferredLogDir(topicPartition, destinationDir)
✅ 这样当后续创建分区时,会直接在
destinationDir中创建日志!
Step 3️⃣:强制获取分区(否则报错)
scala
val partition = getPartitionOrException(topicPartition)
partition.localLogOrException // 确保本地有副本
- 如果本地根本没有这个副本(比如不是 ISR 成员),抛出
NotLeaderOrFollowerException - 兼容性处理:将其映射为
Errors.REPLICA_NOT_AVAILABLE
Step 4️⃣:启动迁移(核心逻辑)
scala
if (partition.maybeCreateFutureReplica(destinationDir, ...)) {
val futureLog = futureLocalLogOrException(...)
logManager.abortAndPauseCleaning(topicPartition) // 暂停 Log Compaction
replicaAlterLogDirsManager.addFetcherForPartitions(...)
}
🌟 "Future Replica" 机制(KIP-113 核心)
- Kafka 不直接移动现有日志(风险高、阻塞写入)
- 而是:
- 在
destinationDir中 创建一个新的"未来日志"(future log) - 启动一个 特殊的 Fetcher 线程 (
ReplicaAlterDirThread) - 该线程从 当前日志(current log)持续拉取数据,追加到 future log
- 当 future log 追上 current log 后:
- 原子切换指针(
partition.setLog(futureLog)) - 删除旧日志
- 原子切换指针(
- 在
💡 这类似于 副本同步机制,但源和目标都在同一个 Broker 上!
⚠️ 特殊处理:取消正在进行的迁移
scala
if (partition.futureReplicaDirChanged(destinationDir)) {
replicaAlterLogDirsManager.removeFetcherForPartitions(...)
partition.removeFutureLocalReplica()
}
- 如果用户多次调用
alterReplicaLogDirs指向不同目录 - 先取消旧的迁移任务,避免资源浪费
🔍 三、describeLogDirs:查询日志目录状态
📌 方法作用
返回每个
log.dir中包含的分区信息,包括:
- 当前日志(current log)大小 & offset lag
- 未来日志(future log)大小 & offset lag(如果正在迁移)
📊 返回结构示例(简化)
json
[
{
"logDir": "/disk1/kafka",
"errorCode": 0,
"topics": [
{
"name": "orders",
"partitions": [
{ "partitionIndex": 0, "partitionSize": 1024, "offsetLag": 0, "isFutureKey": false },
{ "partitionIndex": 0, "partitionSize": 800, "offsetLag": 224, "isFutureKey": true }
]
}
]
},
{
"logDir": "/disk2/kafka",
"errorCode": 0,
"topics": []
}
]
🔑 关键逻辑
scala
val logsByDir = logManager.allLogs.groupBy(_.parentDir)
- 遍历所有日志(包括 current 和 future)
- 按目录分组
scala
.setOffsetLag(getLogEndOffsetLag(...))
offsetLag= Leader LEO - 当前日志 LEO- 对 future log 来说,lag 越小表示越接近完成迁移
✅ 管理员可通过此接口监控迁移进度!
🧩 四、关键设计思想总结
| 机制 | 目的 |
|---|---|
| Future Replica | 实现 无停机、安全 的日志迁移 |
| Fetcher-based Copy | 复用现有副本同步逻辑,保证一致性 |
| Preferred Log Dir | 支持"预设目录",适用于尚未创建的分区 |
| Pause Cleaning | 迁移期间暂停 Log Compaction,避免冲突 |
| Describe with Lag | 提供可观测性,便于运维 |
🔄 五、典型使用场景
场景 1:磁盘空间不均衡
bash
# 查看各目录使用情况
kafka-log-dirs.sh --describe --bootstrap-server localhost:9092 --dirs /disk1,/disk2
# 将大分区迁移到空闲磁盘
kafka-reassign-partitions.sh --alter-replica-log-dirs ...
场景 2:升级存储介质
- 将 HDD 上的分区迁移到 SSD
- 无需重启 Broker,不影响生产者/消费者
场景 3:Topic 创建前指定目录
- 先调用
alterReplicaLogDirs设置偏好目录 - 再创建 Topic → 自动在指定目录创建日志
❗ 六、注意事项 & 限制
-
只能迁移本地副本
- 不能迁移非本 Broker 的分区
- 必须是 Leader 或 Follower
-
目标目录必须 online
- 如果磁盘故障被标记为 offline,迁移会失败
-
迁移期间占用额外磁盘空间
- current + future 日志同时存在,直到切换完成
-
不支持内部主题(如
__consumer_offsets)- 虽然代码没显式禁止,但通常不建议操作
-
topic 名长度限制
- 因 future log 文件名格式为
topic-partition_dir,过长会超 255 字符
- 因 future log 文件名格式为
✅ 总结
这两段代码体现了 Kafka 面向运维友好、高可用、可扩展 的设计理念:
alterReplicaLogDirs:通过"未来副本 + 异步复制"实现 安全在线迁移describeLogDirs:提供 细粒度存储视图,支撑自动化运维
它们共同构成了 Kafka 存储层弹性调度 的基础,是大规模集群管理的关键能力。
如果你正在做 磁盘扩容、性能调优、容量规划,这些接口非常实用。
需要我进一步解释 Future Replica 的切换时机 或 ReplicaAlterDirThread 的工作细节 吗?