Kafka 面试题及详细答案100道（66-80）-- 运维与部署

《前后端面试题》专栏集合了前后端各个知识模块的面试题，包括html，javascript，css，vue，react，java，Openlayers，leaflet，cesium，mapboxGL，threejs，nodejs，mangoDB，SQL，Linux... 。

前后端面试题-专栏总目录

文章目录

一、本文面试题目录
- - [66. 如何搭建一个Kafka集群？需要注意哪些配置？](#66. 如何搭建一个Kafka集群？需要注意哪些配置？)
  - [67. Kafka的关键配置文件（server.properties）中有哪些核心参数？](#67. Kafka的关键配置文件（server.properties）中有哪些核心参数？)
  - [68. 如何为Kafka配置SSL加密传输？](#68. 如何为Kafka配置SSL加密传输？)
  - [69. 如何配置Kafka的认证机制（如SASL）？](#69. 如何配置Kafka的认证机制（如SASL）？)
  - [70. 如何监控Kafka集群的健康状态？](#70. 如何监控Kafka集群的健康状态？)
  - [71. 常用的Kafka监控工具有哪些（如Kafka Eagle、Prometheus+Grafana）？](#71. 常用的Kafka监控工具有哪些（如Kafka Eagle、Prometheus+Grafana）？)
  - [72. 如何对Kafka进行备份和恢复？](#72. 如何对Kafka进行备份和恢复？)
  - [73. 如何扩容Kafka的分区数量？可以缩容吗？](#73. 如何扩容Kafka的分区数量？可以缩容吗？)
  - [74. 如何迁移Kafka的分区副本？](#74. 如何迁移Kafka的分区副本？)
  - [75. Kafka集群的Broker节点故障后，如何处理？](#75. Kafka集群的Broker节点故障后，如何处理？)
  - [76. 如何清理Kafka的过期日志？](#76. 如何清理Kafka的过期日志？)
  - [77. 如何处理Kafka的磁盘空间不足问题？](#77. 如何处理Kafka的磁盘空间不足问题？)
  - [78. 如何升级Kafka集群的版本？](#78. 如何升级Kafka集群的版本？)
  - [79. 什么是Kafka的镜像集群（MirrorMaker）？它的作用是什么？](#79. 什么是Kafka的镜像集群（MirrorMaker）？它的作用是什么？)
  - [80. 如何配置Kafka的跨地域复制？](#80. 如何配置Kafka的跨地域复制？)
[二、100道Kafka 面试题目录列表](#二、100道Kafka 面试题目录列表)

一、本文面试题目录

66. 如何搭建一个Kafka集群？需要注意哪些配置？

搭建Kafka集群需要至少3个Broker节点以保证高可用性，同时需要ZooKeeper集群配合管理元数据。

搭建步骤：

准备环境：
- 安装Java（推荐JDK 11+）
- 配置主机名和IP映射
- 确保节点间网络互通（9092端口和ZooKeeper端口2181）

部署ZooKeeper集群：

bash 复制代码

# 解压ZooKeeper
tar -xzf zookeeper-3.8.0.tar.gz

# 配置zoo.cfg
cat > zookeeper-3.8.0/conf/zoo.cfg << EOF
tickTime=2000
dataDir=/var/lib/zookeeper
clientPort=2181
initLimit=5
syncLimit=2
server.1=zk1:2888:3888
server.2=zk2:2888:3888
server.3=zk3:2888:3888
EOF

# 设置myid（每个节点不同）
echo 1 > /var/lib/zookeeper/myid

# 启动ZooKeeper
zookeeper-3.8.0/bin/zkServer.sh start

部署Kafka集群：

bash 复制代码

# 解压Kafka
tar -xzf kafka_2.13-3.4.0.tgz

# 配置server.properties（broker1）
cat > kafka_2.13-3.4.0/config/server.properties << EOF
broker.id=0
listeners=PLAINTEXT://broker1:9092
log.dirs=/var/lib/kafka/data
zookeeper.connect=zk1:2181,zk2:2181,zk3:2181/kafka
num.partitions=3
default.replication.factor=3
min.insync.replicas=2
auto.create.topics.enable=false
EOF

# 其他broker节点修改broker.id和listeners
# broker2: broker.id=1, listeners=PLAINTEXT://broker2:9092
# broker3: broker.id=2, listeners=PLAINTEXT://broker3:9092

# 启动Kafka
kafka_2.13-3.4.0/bin/kafka-server-start.sh -daemon config/server.properties

验证集群：

bash 复制代码

# 创建测试主题
bin/kafka-topics.sh --create \
  --bootstrap-server broker1:9092,broker2:9092,broker3:9092 \
  --topic test-cluster \
  --partitions 6 \
  --replication-factor 3

# 查看主题详情
bin/kafka-topics.sh --describe \
  --bootstrap-server broker1:9092 \
  --topic test-cluster

注意事项：

broker.id必须唯一，建议使用数字序列
log.dirs最好使用独立磁盘，避免IO竞争
default.replication.factor建议设置为3（生产环境）
min.insync.replicas设置为2可在保证可用性的同时提供较好的一致性
关闭auto.create.topics.enable，避免意外创建主题
确保所有节点的时间同步（使用NTP）
为Kafka和ZooKeeper配置适当的JVM内存
生产环境建议配置SSL加密和认证机制

67. Kafka的关键配置文件（server.properties）中有哪些核心参数？

server.properties是Kafka Broker的核心配置文件，包含以下关键参数：

基本标识参数：

properties 复制代码

# Broker唯一标识，集群中必须唯一
broker.id=0

# 节点名称，用于标识
broker.rack=rack1  # 可选，用于机架感知

网络配置参数：

properties 复制代码

# 监听地址和端口
listeners=PLAINTEXT://:9092

# 广告地址（客户端实际连接的地址）
advertised.listeners=PLAINTEXT://broker1:9092

# 安全协议映射
listener.security.protocol.map=PLAINTEXT:PLAINTEXT,SSL:SSL,SASL_PLAINTEXT:SASL_PLAINTEXT

# 网络线程数
num.network.threads=3
num.io.threads=8

存储配置参数：

properties 复制代码

# 日志存储目录，多个目录用逗号分隔
log.dirs=/var/lib/kafka/data

# 每个主题的默认分区数
num.partitions=3

# 消息日志保留时间（毫秒）
log.retention.ms=604800000  # 7天

# 每个日志分段的大小
log.segment.bytes=1073741824  # 1GB

# 日志清理策略：delete或compact
log.cleanup.policy=delete

副本配置参数：

properties 复制代码

# 默认副本因子
default.replication.factor=3

# 最小同步副本数（ISR）
min.insync.replicas=2

# 副本同步滞后时间阈值
replica.lag.time.max.ms=30000

# 副本拉取最大字节数
replica.fetch.max.bytes=1048576

ZooKeeper配置参数：

properties 复制代码

# ZooKeeper连接字符串
zookeeper.connect=zk1:2181,zk2:2181,zk3:2181/kafka

# ZooKeeper会话超时时间
zookeeper.connection.timeout.ms=18000

安全配置参数：

properties 复制代码

# 启用的安全协议
security.inter.broker.protocol=PLAINTEXT

# SSL配置（当使用SSL时）
ssl.keystore.location=/path/to/keystore.jks
ssl.keystore.password=password
ssl.key.password=password
ssl.truststore.location=/path/to/truststore.jks
ssl.truststore.password=password

其他重要参数：

properties 复制代码

# 是否自动创建主题
auto.create.topics.enable=false

# 消息最大大小
message.max.bytes=1048576  # 1MB

# 控制器数量
controller.quorum.voters=0@broker1:9093,1@broker2:9093,2@broker3:9093  # Kafka 2.8+

# 自动Leader重平衡
auto.leader.rebalance.enable=true

参数配置建议：

根据服务器硬件配置调整线程数（num.network.threads和num.io.threads）
生产环境中default.replication.factor建议设置为3
min.insync.replicas设置为2可在可用性和一致性间取得平衡
根据业务需求调整日志保留时间（log.retention.ms）
关闭自动创建主题功能，便于管理

68. 如何为Kafka配置SSL加密传输？

为Kafka配置SSL加密可确保数据在传输过程中的安全性，防止窃听和篡改。

配置步骤：

生成SSL证书：

bash 复制代码

# 创建证书存储目录
mkdir -p /etc/kafka/ssl
cd /etc/kafka/ssl

# 生成CA证书
keytool -genkeypair -alias ca -keyalg RSA -keysize 2048 -validity 3650 \
  -dname "CN=Kafka CA,OU=IT,O=Example,L=Beijing,C=CN" \
  -keystore ca-keystore.jks -storepass capassword \
  -keypass capassword -ext KeyUsage:critical=keyCertSign \
  -ext BasicConstraints:critical=true,CA:true,pathlen:10

# 导出CA证书
keytool -exportcert -alias ca -keystore ca-keystore.jks \
  -file ca-cert -storepass capassword

# 为每个broker生成证书（以broker1为例）
keytool -genkeypair -alias broker1 -keyalg RSA -keysize 2048 -validity 3650 \
  -dname "CN=broker1,OU=IT,O=Example,L=Beijing,C=CN" \
  -keystore broker1-keystore.jks -storepass broker1password \
  -keypass broker1password

# 用CA签名broker证书
keytool -certreq -alias broker1 -keystore broker1-keystore.jks \
  -file broker1-request -storepass broker1password

keytool -gencert -alias ca -keystore ca-keystore.jks -infile broker1-request \
  -outfile broker1-signed -storepass capassword -validity 3650 \
  -ext KeyUsage:critical=digitalSignature,keyEncipherment \
  -ext ExtendedKeyUsage:critical=serverAuth,clientAuth \
  -ext SubjectAlternativeName:DNS:broker1,DNS:localhost,IP:127.0.0.1

# 导入CA证书和签名证书到broker密钥库
keytool -importcert -alias ca -keystore broker1-keystore.jks \
  -file ca-cert -storepass broker1password -noprompt

keytool -importcert -alias broker1 -keystore broker1-keystore.jks \
  -file broker1-signed -storepass broker1password -noprompt

# 创建信任库
keytool -importcert -alias ca -keystore truststore.jks \
  -file ca-cert -storepass trustpassword -noprompt

配置Broker的SSL：

properties 复制代码

# server.properties
# 启用SSL监听
listeners=SSL://broker1:9093
advertised.listeners=SSL://broker1:9093

# 安全协议
security.inter.broker.protocol=SSL
listener.security.protocol.map=SSL:SSL

# SSL配置
ssl.keystore.location=/etc/kafka/ssl/broker1-keystore.jks
ssl.keystore.password=broker1password
ssl.key.password=broker1password
ssl.truststore.location=/etc/kafka/ssl/truststore.jks
ssl.truststore.password=trustpassword

# 客户端认证（可选：none, request, required）
ssl.client.auth=required

# SSL协议
ssl.enabled.protocols=TLSv1.2,TLSv1.3
ssl.cipher.suites=ECDHE-ECDSA-AES256-GCM-SHA384,ECDHE-RSA-AES256-GCM-SHA384

配置生产者使用SSL：

properties 复制代码

# producer.properties
bootstrap.servers=broker1:9093,broker2:9093,broker3:9093
security.protocol=SSL

ssl.truststore.location=/etc/kafka/ssl/truststore.jks
ssl.truststore.password=trustpassword

# 如果启用了客户端认证，还需要配置
ssl.keystore.location=/etc/kafka/ssl/client-keystore.jks
ssl.keystore.password=clientpassword
ssl.key.password=clientpassword

配置消费者使用SSL：

properties 复制代码

# consumer.properties
bootstrap.servers=broker1:9093,broker2:9093,broker3:9093
group.id=ssl-consumer-group
security.protocol=SSL

ssl.truststore.location=/etc/kafka/ssl/truststore.jks
ssl.truststore.password=trustpassword

# 如果启用了客户端认证，还需要配置
ssl.keystore.location=/etc/kafka/ssl/client-keystore.jks
ssl.keystore.password=clientpassword
ssl.key.password=clientpassword

验证SSL配置：

bash 复制代码

# 使用SSL连接测试
bin/kafka-console-producer.sh \
  --broker-list broker1:9093 \
  --topic ssl-test \
  --producer.config config/producer-ssl.properties

bin/kafka-console-consumer.sh \
  --bootstrap-server broker1:9093 \
  --topic ssl-test \
  --from-beginning \
  --consumer.config config/consumer-ssl.properties

注意事项：

所有Broker和客户端必须信任相同的CA
定期轮换证书以提高安全性
生产环境中使用强密码和安全的密钥存储
可以同时配置PLAINTEXT和SSL监听器，逐步迁移

69. 如何配置Kafka的认证机制（如SASL）？

Kafka支持多种SASL（Simple Authentication and Security Layer）认证机制，最常用的是SASL/PLAIN和SASL/SCRAM。

配置SASL/PLAIN认证：

配置ZooKeeper的SASL认证（如果需要）：

bash 复制代码

# 创建JAAS配置文件
cat > zookeeper_jaas.conf << EOF
Server {
    org.apache.zookeeper.server.auth.DigestLoginModule required
    user_kafka="kafka-secret"
    user_admin="admin-secret";
};
EOF

# 启动ZooKeeper时指定JAAS配置
export SERVER_JVMFLAGS="-Djava.security.auth.login.config=/path/to/zookeeper_jaas.conf"
bin/zkServer.sh start

配置Kafka Broker的SASL：

bash 复制代码

# 创建Kafka的JAAS配置文件
cat > kafka_server_jaas.conf << EOF
KafkaServer {
    org.apache.kafka.common.security.plain.PlainLoginModule required
    username="admin"
    password="admin-secret"
    user_admin="admin-secret"
    user_producer="producer-secret"
    user_consumer="consumer-secret";
};

Client {
    org.apache.kafka.common.security.plain.PlainLoginModule required
    username="kafka"
    password="kafka-secret";
};
EOF

# 修改server.properties
cat >> config/server.properties << EOF
# 启用SASL_PLAINTEXT监听
listeners=SASL_PLAINTEXT://broker1:9092
advertised.listeners=SASL_PLAINTEXT://broker1:9092

# 安全协议配置
security.inter.broker.protocol=SASL_PLAINTEXT
sasl.mechanism.inter.broker.protocol=PLAIN
sasl.enabled.mechanisms=PLAIN

# 认证授权配置
authorizer.class.name=kafka.security.authorizer.AclAuthorizer
allow.everyone.if.no.acl.found=false
super.users=User:admin
EOF

# 启动Kafka时指定JAAS配置
export KAFKA_OPTS="-Djava.security.auth.login.config=/path/to/kafka_server_jaas.conf"
bin/kafka-server-start.sh -daemon config/server.properties

配置生产者使用SASL认证：

bash 复制代码

# 创建生产者配置
cat > config/producer_sasl.properties << EOF
bootstrap.servers=broker1:9092
security.protocol=SASL_PLAINTEXT
sasl.mechanism=PLAIN

key.serializer=org.apache.kafka.common.serialization.StringSerializer
value.serializer=org.apache.kafka.common.serialization.StringSerializer
EOF

# 创建生产者JAAS配置
cat > producer_jaas.conf << EOF
KafkaClient {
    org.apache.kafka.common.security.plain.PlainLoginModule required
    username="producer"
    password="producer-secret";
};
EOF

配置消费者使用SASL认证：

bash 复制代码

# 创建消费者配置
cat > config/consumer_sasl.properties << EOF
bootstrap.servers=broker1:9092
group.id=sasl-consumer-group
security.protocol=SASL_PLAINTEXT
sasl.mechanism=PLAIN

key.deserializer=org.apache.kafka.common.serialization.StringDeserializer
value.deserializer=org.apache.kafka.common.serialization.StringDeserializer
EOF

# 创建消费者JAAS配置
cat > consumer_jaas.conf << EOF
KafkaClient {
    org.apache.kafka.common.security.plain.PlainLoginModule required
    username="consumer"
    password="consumer-secret";
};
EOF

测试SASL认证：

bash 复制代码

# 启动生产者
export KAFKA_OPTS="-Djava.security.auth.login.config=/path/to/producer_jaas.conf"
bin/kafka-console-producer.sh \
  --broker-list broker1:9092 \
  --topic sasl-test \
  --producer.config config/producer_sasl.properties

# 启动消费者
export KAFKA_OPTS="-Djava.security.auth.login.config=/path/to/consumer_jaas.conf"
bin/kafka-console-consumer.sh \
  --bootstrap-server broker1:9092 \
  --topic sasl-test \
  --from-beginning \
  --consumer.config config/consumer_sasl.properties

配置SASL/SCRAM认证（更安全的选择）：

在Broker上创建SCRAM用户：

bash 复制代码

# 创建SCRAM用户
bin/kafka-configs.sh --bootstrap-server broker1:9092 \
  --alter --add-config 'SCRAM-SHA-256=[password=producer-secret],SCRAM-SHA-512=[password=producer-secret]' \
  --entity-type users --entity-name producer

bin/kafka-configs.sh --bootstrap-server broker1:9092 \
  --alter --add-config 'SCRAM-SHA-256=[password=consumer-secret],SCRAM-SHA-512=[password=consumer-secret]' \
  --entity-type users --entity-name consumer

修改Broker配置：

properties 复制代码

# server.properties
sasl.enabled.mechanisms=SCRAM-SHA-256,SCRAM-SHA-512
sasl.mechanism.inter.broker.protocol=SCRAM-SHA-256

客户端JAAS配置：

复制代码

KafkaClient {
    org.apache.kafka.common.security.scram.ScramLoginModule required
    username="producer"
    password="producer-secret";
};

注意事项：

SASL/PLAIN传输密码明文，建议与SSL结合使用
SCRAM更安全，推荐在生产环境使用
定期轮换密码以提高安全性
可以配置ACL（访问控制列表）进一步限制权限

70. 如何监控Kafka集群的健康状态？

监控Kafka集群的健康状态需要关注多个维度的指标，确保集群稳定运行。

关键健康指标：

Broker健康指标：
- 集群中所有Broker是否正常运行
- Broker的JVM状态（内存使用、GC情况）
- 磁盘空间使用率（应低于85%）
- 网络连接状态
分区和副本状态：
- UnderReplicatedPartitions：同步不足的分区数（应始终为0）
- OfflinePartitionsCount：离线分区数（应始终为0）
- LeaderCount：Leader分区分布是否均衡
- ISR收缩频率：频繁收缩可能表示集群不稳定
吞吐量指标：
- BytesInPerSec：Broker接收数据速率
- BytesOutPerSec：Broker发送数据速率
- MessagesInPerSec：每秒处理的消息数
消费者指标：
- ConsumerLag：消费延迟（应尽可能小）
- ActiveConsumerCount：活跃消费者数量
- ConsumerGroup状态：是否稳定，有无频繁重平衡

监控实现方式：

使用JMX导出指标：

bash 复制代码

# 启动Kafka时开启JMX
export JMX_PORT=9999
bin/kafka-server-start.sh -daemon config/server.properties

使用Prometheus和Grafana监控：

yaml 复制代码

# prometheus.yml配置
global:
  scrape_interval: 15s

scrape_configs:
  - job_name: 'kafka'
    static_configs:
      - targets: ['broker1:9999', 'broker2:9999', 'broker3:9999']
        labels:
          group: 'kafka-brokers'

  - job_name: 'kafka-exporter'
    static_configs:
      - targets: ['exporter-host:9308']

使用Kafka自带工具监控：

bash 复制代码

# 检查Broker状态
bin/kafka-broker-api-versions.sh --bootstrap-server broker1:9092

# 检查消费者组状态
bin/kafka-consumer-groups.sh --bootstrap-server broker1:9092 --list
bin/kafka-consumer-groups.sh --bootstrap-server broker1:9092 --describe --group my-group

# 检查主题状态
bin/kafka-topics.sh --bootstrap-server broker1:9092 --describe --topic my-topic

自定义健康检查脚本：

bash 复制代码

# 检查UnderReplicatedPartitions
#!/bin/bash
UNDER_REPLICATED=$(bin/kafka-run-class.sh kafka.tools.JmxTool \
  --object-name kafka.server:type=ReplicaManager,name=UnderReplicatedPartitions \
  --jmx-url service:jmx:rmi:///jndi/rmi://localhost:9999/jmxrmi \
  | grep -oP '\d+')

if [ "$UNDER_REPLICATED" -gt 0 ]; then
  echo "警告: 存在$UNDER_REPLICATED个同步不足的分区"
  # 发送告警
else
  echo "正常: 所有分区同步正常"
fi

设置告警阈值：
- UnderReplicatedPartitions > 0 持续5分钟
- 磁盘使用率 > 85%
- 消费延迟 > 10000条消息
- Broker离线
- 网络流量突降或突增30%以上

健康监控最佳实践：

建立完整的监控仪表盘，可视化关键指标
设置多级告警（警告、严重、紧急）
结合日志分析，快速定位问题根源
定期进行健康检查演练，验证监控有效性

71. 常用的Kafka监控工具有哪些（如Kafka Eagle、Prometheus+Grafana）？

Kafka监控工具种类繁多，从简单的命令行工具到复杂的可视化监控系统，各有特点：

Prometheus + Grafana：
- 特点：开源、灵活、可扩展的监控解决方案
- 组成：
  - Prometheus：收集和存储指标数据
  - Grafana：可视化监控数据，创建仪表盘
  - Kafka Exporter：导出Kafka指标供Prometheus采集
- 优势：
  - 丰富的指标收集和查询能力
  - 强大的可视化功能，支持自定义仪表盘
  - 灵活的告警机制
  - 可与其他系统监控集成
- 部署示例 ：
  bash 复制代码
```
# 启动Kafka Exporter
./kafka_exporter --kafka.server=broker1:9092 --kafka.server=broker2:9092

# 配置Prometheus抓取Kafka Exporter数据
# 在prometheus.yml中添加
- job_name: 'kafka-exporter'
  static_configs:
    - targets: ['localhost:9308']

# Grafana导入Kafka监控模板（如ID:7589）
```
Kafka Eagle：
- 特点：专为Kafka设计的开源监控系统
- 功能：
  - 集群状态监控
  - 主题和分区监控
  - 消费者组和消费延迟监控
  - 告警功能
  - 性能分析
- 优势：
  - 专为Kafka优化，指标针对性强
  - 中文支持良好
  - 部署和使用简单
  - 提供丰富的图表和报表
- 部署要点 ：
  properties 复制代码
```
# 配置system-config.properties
kafka.eagle.zk.cluster.alias=cluster1
cluster1.zk.list=zk1:2181,zk2:2181,zk3:2181/kafka
kafka.eagle.webui.port=8048
```
Confluent Control Center：
- 特点：Confluent提供的商业监控工具
- 功能：
  - 全面的Kafka集群监控
  - 数据流可视化
  - 性能分析和优化建议
  - 告警和通知
  - 多集群管理
- 优势：
  - 与Confluent Platform深度集成
  - 专业的技术支持
  - 直观的用户界面
  - 高级分析功能
- 适用场景：企业级Kafka部署，特别是使用Confluent Platform的环境
Datadog/New Relic：
- 特点：云原生应用性能监控工具
- 功能：
  - 全栈监控，包括Kafka和相关系统
  - 自动告警和异常检测
  - 历史趋势分析
  - 分布式追踪
- 优势：
  - 无需维护监控基础设施
  - 强大的数据分析能力
  - 易于集成到现有监控体系
- 适用场景：云环境或混合环境中的Kafka监控
命令行工具：
- kafka-topics.sh：查看主题和分区信息
- kafka-consumer-groups.sh：监控消费者组和消费延迟
- kafka-run-class.sh：通过JMX查看指标
- 优势：简单直接，无需额外部署
- 局限性：缺乏可视化，不适合长期监控

工具选择建议：

中小规模集群：Prometheus + Grafana（开源且功能强大）
专注Kafka监控：Kafka Eagle（简单易用，针对性强）
企业级部署：Confluent Control Center（专业支持，功能全面）
云环境：Datadog/New Relic（无需维护基础设施）
临时检查：Kafka自带命令行工具

72. 如何对Kafka进行备份和恢复？

Kafka的备份和恢复策略主要围绕数据持久性和灾难恢复展开，确保在发生故障时能够恢复数据。

备份策略：

基于副本的备份：
- 利用Kafka自身的副本机制，设置合适的replication.factor（建议3）
- 确保min.insync.replicas设置合理（通常为2）
- 优势：无需额外工具，实时备份
- 局限性：无法应对整个集群故障

文件系统备份：

bash 复制代码

# 暂停Kafka（可选，确保数据一致性）
bin/kafka-server-stop.sh

# 备份Kafka数据目录
rsync -avz /var/lib/kafka/data /backup/kafka/$(date +%Y%m%d)

# 重启Kafka
bin/kafka-server-start.sh -daemon config/server.properties

优势：完整备份，包括所有消息和元数据
局限性：需要停机或快照技术，备份体积大

使用MirrorMaker进行跨集群备份：

bash 复制代码

# 创建 MirrorMaker 配置
cat > mirror-maker.properties << EOF
consumer.properties=source-consumer.properties
producer.properties=destination-producer.properties
whitelist=.*  # 备份所有主题
EOF

# 启动 MirrorMaker
bin/kafka-mirror-maker.sh \
  --consumer.config source-consumer.properties \
  --producer.config destination-producer.properties \
  --whitelist "important-topics.*"

优势：实时同步，可跨数据中心，不影响主集群
适用场景：灾难恢复，跨区域备份

主题级备份：

bash 复制代码

# 导出主题数据到文件
bin/kafka-console-consumer.sh \
  --bootstrap-server broker1:9092 \
  --topic important-topic \
  --from-beginning \
  --property print.key=true \
  --property key.separator="|" \
  > important-topic-backup-$(date +%Y%m%d).txt

优势：灵活，可选择特定主题备份
局限性：大型主题备份效率低

恢复策略：

从文件系统备份恢复：

bash 复制代码

# 停止Kafka
bin/kafka-server-stop.sh

# 恢复数据目录
rm -rf /var/lib/kafka/data/*
rsync -avz /backup/kafka/20230501/* /var/lib/kafka/data/

# 启动Kafka
bin/kafka-server-start.sh -daemon config/server.properties

从MirrorMaker备份集群恢复：

bash 复制代码

# 切换生产者到备份集群
sed -i 's/bootstrap.servers=broker1:9092/bootstrap.servers=backup-broker1:9092/' producer.properties

# 重置消费者偏移量到备份集群
bin/kafka-consumer-groups.sh \
  --bootstrap-server backup-broker1:9092 \
  --group my-group \
  --reset-offsets \
  --all-topics \
  --to-earliest \
  --execute

从导出文件恢复主题数据：

bash 复制代码

# 创建目标主题
bin/kafka-topics.sh --create \
  --bootstrap-server broker1:9092 \
  --topic important-topic-restored \
  --partitions 3 \
  --replication-factor 3

# 导入备份数据
cat important-topic-backup-20230501.txt | \
bin/kafka-console-producer.sh \
  --bootstrap-server broker1:9092 \
  --topic important-topic-restored \
  --property parse.key=true \
  --property key.separator="|"

使用Kafka Admin API进行恢复：

java 复制代码

// 示例：使用Admin API恢复主题配置
Properties props = new Properties();
props.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, "broker1:9092");
AdminClient adminClient = AdminClient.create(props);

// 创建已丢失的主题
NewTopic topic = new NewTopic("restored-topic", 3, (short) 3);
adminClient.createTopics(Collections.singleton(topic)).all().get();

// 恢复主题配置
Map<String, String> configs = loadTopicConfigsFromBackup("restored-topic");
adminClient.alterConfigs(Collections.singletonMap(
    new ConfigResource(ConfigResource.Type.TOPIC, "restored-topic"),
    new Config(configs.entrySet().stream()
        .map(e -> new ConfigEntry(e.getKey(), e.getValue()))
        .collect(Collectors.toList()))
)).all().get();

adminClient.close();

备份和恢复最佳实践：

结合多种备份策略，确保数据安全
定期测试恢复流程，验证备份有效性
跨区域备份，应对区域性故障
备份元数据（主题配置、消费者偏移量等）
制定详细的灾难恢复计划和操作手册

73. 如何扩容Kafka的分区数量？可以缩容吗？

Kafka支持增加分区数量以提高吞吐量，但不直接支持减少分区数量（缩容）。

扩容分区数量的步骤：

查看当前分区数量：

bash 复制代码

bin/kafka-topics.sh --describe \
  --bootstrap-server broker1:9092 \
  --topic my-topic

增加分区数量：

bash 复制代码

# 将分区数从3增加到6
bin/kafka-topics.sh --alter \
  --bootstrap-server broker1:9092 \
  --topic my-topic \
  --partitions 6

验证分区数量：

bash 复制代码

bin/kafka-topics.sh --describe \
  --bootstrap-server broker1:9092 \
  --topic my-topic | grep PartitionCount

重新分配分区（可选） ：

如果新增分区分布不均，可以手动重新分配：

bash 复制代码

# 创建主题列表文件
echo '{"topics":[{"topic":"my-topic"}], "version":1}' > topics.json

# 生成重分配计划
bin/kafka-reassign-partitions.sh \
  --bootstrap-server broker1:9092 \
  --topics-to-move-json-file topics.json \
  --broker-list "0,1,2,3" \  # 包含所有broker ID
  --generate

# 执行重分配计划（使用上一步生成的计划）
bin/kafka-reassign-partitions.sh \
  --bootstrap-server broker1:9092 \
  --reassignment-json-file reassignment-plan.json \
  --execute

分区扩容注意事项：

分区数量只能增加，不能减少
增加分区不会影响现有分区的数据
分区扩容后，新消息会根据分区策略分配到所有分区（包括新增分区）
消费者需要重新平衡才能开始消费新增分区的数据
分区过多会增加集群管理开销和ZooKeeper负担

为什么不能直接缩容分区？

Kafka设计上不支持减少分区数量，因为这会破坏分区与副本的映射关系
减少分区可能导致数据丢失或不一致
分区是Kafka并行处理的基本单位，减少分区会降低吞吐量

实现"缩容"的间接方法：

创建新主题：

bash 复制代码

# 创建一个分区数更少的新主题
bin/kafka-topics.sh --create \
  --bootstrap-server broker1:9092 \
  --topic my-topic-new \
  --partitions 2 \  # 比原主题少的分区数
  --replication-factor 3

迁移数据：

bash 复制代码

# 使用MirrorMaker或自定义工具迁移数据
bin/kafka-mirror-maker.sh \
  --consumer.config consumer.properties \
  --producer.config producer.properties \
  --whitelist "my-topic"

切换生产者：
- 更新所有生产者配置，指向新主题
消费完旧主题数据：
- 等待消费者消费完旧主题的所有数据
切换消费者：
- 停止消费者
- 重新配置消费者指向新主题
- 启动消费者（可选择从最早位置开始消费）

删除旧主题：

bash 复制代码

bin/kafka-topics.sh --delete \
  --bootstrap-server broker1:9092 \
  --topic my-topic

最佳实践：

规划时预留足够的分区数量，避免频繁扩容
扩容分区时，新分区数通常是原分区数的整数倍，便于负载均衡
如需"缩容"，采用创建新主题并迁移数据的方法
重大变更前备份数据，以防意外

74. 如何迁移Kafka的分区副本？

迁移Kafka的分区副本是调整集群负载、替换故障节点或扩容集群时的常见操作，可通过Kafka提供的工具实现。

迁移分区副本的步骤：

确定需要迁移的分区：

bash 复制代码

# 查看主题分区分布
bin/kafka-topics.sh --describe \
  --bootstrap-server broker1:9092 \
  --topic my-topic

创建重分配计划JSON文件：

json 复制代码

{
  "version": 1,
  "partitions": [
    {
      "topic": "my-topic",
      "partition": 0,
      "replicas": [1, 2, 3],  # 新的副本分布，第一个为Leader
      "log_dirs": ["any", "any", "any"]
    },
    {
      "topic": "my-topic",
      "partition": 1,
      "replicas": [2, 3, 0],
      "log_dirs": ["any", "any", "any"]
    }
  ]
}

保存为reassignment.json

生成推荐的重分配计划（可选） ：

如果不确定如何分配，可以让Kafka生成推荐计划：

bash 复制代码

# 创建包含需要迁移的主题的文件
echo '{"topics":[{"topic":"my-topic"}], "version":1}' > topics.json

# 生成推荐计划
bin/kafka-reassign-partitions.sh \
  --bootstrap-server broker1:9092 \
  --topics-to-move-json-file topics.json \
  --broker-list "0,1,2,3" \  # 目标broker列表
  --generate

执行分区迁移：

bash 复制代码

bin/kafka-reassign-partitions.sh \
  --bootstrap-server broker1:9092 \
  --reassignment-json-file reassignment.json \
  --execute

监控迁移进度：

bash 复制代码

bin/kafka-reassign-partitions.sh \
  --bootstrap-server broker1:9092 \
  --reassignment-json-file reassignment.json \
  --verify

平衡Leader分区（可选） ：

迁移完成后，Leader可能集中在少数节点，需要平衡：
bash 复制代码
```
bin/kafka-preferred-replica-election.sh \
  --bootstrap-server broker1:9092
```

常见迁移场景及策略：

替换故障节点：

将故障节点上的所有副本迁移到新节点
确保新节点已加入集群

示例计划：将包含broker 0的副本迁移到broker 3

json 复制代码

{
  "version": 1,
  "partitions": [
    {
      "topic": "my-topic",
      "partition": 0,
      "replicas": [3, 1, 2],  # 原replicas为[0,1,2]
      "log_dirs": ["any", "any", "any"]
    }
  ]
}

负载均衡：
- 将负载高的节点上的部分副本迁移到负载低的节点
- 关注分区数量、Leader数量和磁盘使用率
- 逐步迁移，避免影响集群性能
扩容新节点：
- 将现有分区的副本分配到新节点
- 增加副本因子以利用新节点
- 示例：将部分副本迁移到新节点3和4

迁移注意事项：

迁移过程会消耗额外的网络带宽和磁盘IO
建议在流量低谷期进行迁移
大型集群迁移时，分批进行，每次迁移少量分区

迁移期间监控集群状态，如出现异常可取消迁移：

bash 复制代码

bin/kafka-reassign-partitions.sh \
  --bootstrap-server broker1:9092 \
  --reassignment-json-file reassignment.json \
  --cancel

确保目标节点有足够的磁盘空间和性能

最佳实践：

迁移前备份关键数据
制定详细的迁移计划和回滚方案
监控迁移过程中的性能指标
迁移完成后验证数据完整性和集群健康状态

75. Kafka集群的Broker节点故障后，如何处理？

当Kafka集群中的Broker节点发生故障时，需要根据故障类型和严重程度采取相应措施，以确保集群尽快恢复正常运行。

故障处理步骤：

确认故障状态：

bash 复制代码

# 检查Broker是否在线
bin/kafka-broker-api-versions.sh --bootstrap-server broker1:9092

# 检查ZooKeeper中的Broker注册信息
bin/zookeeper-shell.sh zk1:2181 ls /brokers/ids

# 检查分区状态
bin/kafka-topics.sh --describe --bootstrap-server broker1:9092 --topic my-topic

评估故障影响：
- 检查是否有分区变为离线（OfflinePartitions）
- 查看同步不足的分区数（UnderReplicatedPartitions）
- 确认受影响的主题和消费者组
尝试恢复故障节点：
- 检查服务器状态、网络连接和磁盘空间
- 查看Kafka日志，定位故障原因：
  bash 复制代码
```
tail -n 100 /var/log/kafka/server.log
```
- 重启故障节点：
  bash 复制代码
```
bin/kafka-server-start.sh -daemon config/server.properties
```
处理无法恢复的节点：
- 如果节点无法恢复，需要将其从集群中移除
- 迁移该节点上的所有分区副本：
  bash 复制代码
```
# 创建包含所有受影响分区的重分配计划
# 参考74题中的迁移方法，将故障节点的副本迁移到其他节点
```
- 更新集群配置，移除故障节点
恢复集群平衡：
- 执行分区重分配，平衡副本分布
- 触发Preferred Leader选举，平衡Leader负载：
  bash 复制代码
```
bin/kafka-preferred-replica-election.sh --bootstrap-server broker1:9092
```
- 监控集群指标，确保恢复正常

自动故障转移机制 ：

Kafka具有一定的自动故障转移能力：

当Leader副本所在的Broker故障时，Kafka会从ISR（同步副本集）中选举新的Leader
选举过程由Controller节点协调完成
消费者和生产者会自动检测Leader变化并重新连接

数据恢复考虑：

如果故障节点包含未同步到其他副本的消息（在HW之上），这些消息可能会丢失
配置min.insync.replicas为2或更高可减少数据丢失风险
恢复节点后，Kafka会自动同步错过的消息

预防措施：

配置高可用：

properties 复制代码

# 适当的副本因子
default.replication.factor=3

# 最小同步副本数
min.insync.replicas=2

# 副本滞后时间
replica.lag.time.max.ms=30000

监控告警：
- 配置Broker离线告警
- 监控UnderReplicatedPartitions和OfflinePartitions
- 设置磁盘空间和网络监控
定期维护：
- 定期检查服务器健康状态
- 及时更新Kafka版本，修复已知bug
- 定期测试故障恢复流程

故障处理最佳实践：

制定详细的故障处理手册，明确责任人
保持冷静，先评估影响再采取行动
优先恢复关键业务的主题
记录故障原因和处理过程，持续改进
定期进行故障演练，提高处理效率

76. 如何清理Kafka的过期日志？

Kafka会自动清理过期日志，但也可以手动触发清理或调整清理策略，以控制磁盘空间使用。

Kafka日志清理机制 ：

Kafka提供两种日志清理策略：

删除策略（delete）：按时间或大小删除旧日志
压缩策略（compact）：保留每个Key的最新版本，删除旧版本

配置日志清理策略：

全局默认配置：

properties 复制代码

# server.properties
# 默认清理策略
log.cleanup.policy=delete

# 日志保留时间（毫秒）
log.retention.ms=604800000  # 7天

# 日志保留大小（每个分区）
log.retention.bytes=10737418240  # 10GB

# 日志分段大小
log.segment.bytes=1073741824  # 1GB

# 日志分段保留时间（即使未达到保留时间，也会在关闭后删除）
log.retention.check.interval.ms=300000  # 5分钟

主题级配置：

bash 复制代码

# 创建主题时指定清理策略
bin/kafka-topics.sh --create \
  --bootstrap-server broker1:9092 \
  --topic compacted-topic \
  --partitions 3 \
  --replication-factor 3 \
  --config cleanup.policy=compact \
  --config retention.ms=86400000 \  # 1天
  --config segment.bytes=536870912  # 512MB

# 修改现有主题的清理策略
bin/kafka-configs.sh --alter \
  --bootstrap-server broker1:9092 \
  --topic my-topic \
  --add-config retention.ms=604800000

手动清理过期日志：

使用kafka-delete-records工具：

bash 复制代码

# 创建要删除的记录范围配置
echo '{"partitions":[{"topic":"my-topic","partition":0,"offset":1000}], "version":1}' > delete-config.json

# 执行删除
bin/kafka-delete-records.sh \
  --bootstrap-server broker1:9092 \
  --offset-json-file delete-config.json

此命令会将分区的日志截断到指定偏移量，删除之前的记录

通过降低保留时间触发清理：

bash 复制代码

# 临时降低保留时间
bin/kafka-configs.sh --alter \
  --bootstrap-server broker1:9092 \
  --topic my-topic \
  --add-config retention.ms=60000  # 1分钟

# 等待清理完成后恢复原配置
sleep 120
bin/kafka-configs.sh --alter \
  --bootstrap-server broker1:9092 \
  --topic my-topic \
  --add-config retention.ms=604800000

直接删除日志文件（不推荐）：

bash 复制代码

# 停止Kafka
bin/kafka-server-stop.sh

# 删除旧的日志分段文件
rm -rf /var/lib/kafka/data/my-topic-0/00000000000000000000.log
rm -rf /var/lib/kafka/data/my-topic-0/00000000000000000000.index
rm -rf /var/lib/kafka/data/my-topic-0/00000000000000000000.timeindex

# 重启Kafka
bin/kafka-server-start.sh -daemon config/server.properties

此方法风险高，可能导致数据不一致，仅在紧急情况下使用

日志清理最佳实践：

根据业务需求设置合理的保留策略
重要数据使用较长的保留时间，或结合外部存储
监控磁盘使用率，避免空间不足
压缩策略适合键值对数据（如用户配置、字典数据）
删除策略适合事件流数据（如日志、监控数据）
定期检查清理效果，优化配置参数

注意事项：

日志清理不会立即释放磁盘空间，因为操作系统可能缓存文件
压缩策略会增加CPU开销
清理大量数据时可能影响集群性能，建议在低峰期进行
确保消费者有足够的时间在数据被清理前消费完毕

77. 如何处理Kafka的磁盘空间不足问题？

Kafka磁盘空间不足会导致无法写入新消息，影响整个集群的可用性，需要及时处理。

处理步骤：

确认磁盘空间使用情况：

bash 复制代码

# 查看Kafka数据目录磁盘使用率
df -h /var/lib/kafka/data

# 查看各主题占用空间
du -sh /var/lib/kafka/data/* | sort -hr

# 查看具体分区大小
du -sh /var/lib/kafka/data/my-topic-* | sort -hr

紧急释放空间：

删除过期日志（参考76题）：

bash 复制代码

# 对大主题临时降低保留时间
bin/kafka-configs.sh --alter \
  --bootstrap-server broker1:9092 \
  --topic large-topic \
  --add-config retention.ms=3600000  # 1小时

删除不再需要的主题：

bash 复制代码

bin/kafka-topics.sh --delete \
  --bootstrap-server broker1:9092 \
  --topic obsolete-topic

移动数据到临时存储（谨慎操作）：

bash 复制代码

# 仅在极端情况下使用，需先停止Kafka
bin/kafka-server-stop.sh
mv /var/lib/kafka/data/old-topic-* /mnt/temp-storage/
bin/kafka-server-start.sh -daemon config/server.properties

长期解决方案：

增加磁盘容量：
properties 复制代码
```
# 添加新的磁盘目录到配置
log.dirs=/var/lib/kafka/data,/new-disk/kafka/data
```
重启Kafka后，新分区会自动分配到所有目录
添加新的Broker节点 ：

扩展集群容量，分散存储压力（参考65题）

调整日志保留策略：

bash 复制代码

# 为所有新主题设置默认保留时间
# 修改server.properties
log.retention.ms=604800000  # 7天

# 为现有大主题设置更短的保留时间
bin/kafka-configs.sh --alter \
  --bootstrap-server broker1:9092 \
  --topic large-topic \
  --add-config retention.ms=259200000  # 3天

启用压缩：

bash 复制代码

# 为适合的主题启用压缩
bin/kafka-configs.sh --alter \
  --bootstrap-server broker1:9092 \
  --topic compressible-topic \
  --add-config cleanup.policy=compact

监控与预防：
- 设置磁盘使用率告警（如超过80%警告，90%紧急）
- 监控主题增长趋势，提前扩容
- 定期清理不再需要的主题和数据

自动化处理脚本示例：

bash 复制代码

#!/bin/bash
# 检查磁盘空间并自动处理

THRESHOLD=85  # 警告阈值
CRITICAL_THRESHOLD=90  # 紧急阈值
KAFKA_DATA_DIR="/var/lib/kafka/data"
BOOTSTRAP_SERVERS="broker1:9092"

# 获取磁盘使用率
USAGE=$(df -P $KAFKA_DATA_DIR | tail -1 | awk '{print $5}' | sed 's/%//')

if [ $USAGE -ge $CRITICAL_THRESHOLD ]; then
  echo "磁盘空间紧急: $USAGE%"
  
  # 找出最大的3个主题
  LARGE_TOPICS=$(du -sh $KAFKA_DATA_DIR/* | sort -hr | head -3 | awk '{print $2}' | xargs -n1 basename | cut -d'-' -f1- | sort -u)
  
  # 临时降低这些主题的保留时间
  for TOPIC in $LARGE_TOPICS; do
    echo "降低主题 $TOPIC 的保留时间"
    bin/kafka-configs.sh --alter \
      --bootstrap-server $BOOTSTRAP_SERVERS \
      --topic $TOPIC \
      --add-config retention.ms=3600000  # 1小时
  done
  
  # 发送紧急告警
  send_alert "Kafka磁盘空间不足: $USAGE%"
elif [ $USAGE -ge $THRESHOLD ]; then
  echo "磁盘空间警告: $USAGE%"
  # 发送警告
  send_alert "Kafka磁盘空间不足: $USAGE%"
else
  echo "磁盘空间正常: $USAGE%"
fi

最佳实践：

实施分层存储策略，热数据存本地，冷数据迁移到低成本存储
建立数据生命周期管理策略，自动归档和清理过期数据
定期审查主题使用情况，删除或合并冗余主题
配置足够的初始磁盘空间，避免频繁扩容
跨多个磁盘分布数据，提高IO性能和容错性

78. 如何升级Kafka集群的版本？

升级Kafka集群需要谨慎操作，以确保数据安全和服务连续性，推荐采用滚动升级方式。

升级前准备：

检查版本兼容性：
- 查阅官方文档，确认目标版本与当前版本的兼容性
- 注意重大变更和不兼容的API变更
- 确认客户端版本与Broker版本的兼容性

备份数据和配置：

bash 复制代码

# 备份配置文件
cp -r config/ config-backup-$(date +%Y%m%d)

# 备份数据目录（可选，大型集群可省略）
rsync -avz /var/lib/kafka/data/ /backup/kafka-data-$(date +%Y%m%d)/

# 导出主题配置
bin/kafka-topics.sh --bootstrap-server broker1:9092 --list | while read topic; do
  bin/kafka-topics.sh --describe --bootstrap-server broker1:9092 --topic $topic > topics-backup/$topic.txt
done

测试升级：
- 在测试环境部署相同的集群配置
- 执行升级流程，验证功能和性能
- 测试客户端兼容性

滚动升级步骤：

升级第一个Broker：

bash 复制代码

# 停止Broker
bin/kafka-server-stop.sh

# 替换Kafka安装文件
rm -rf kafka_old
mv kafka_new kafka

# 检查并更新配置文件
# 对比config-backup和新配置，合并必要的变更

# 启动新版本Broker
bin/kafka-server-start.sh -daemon config/server.properties

# 验证Broker启动成功
bin/kafka-broker-api-versions.sh --bootstrap-server broker1:9092

验证集群状态：

bash 复制代码

# 检查Broker是否加入集群
bin/zookeeper-shell.sh zk1:2181 ls /brokers/ids

# 检查分区状态
bin/kafka-topics.sh --describe --bootstrap-server broker1:9092 --topic test-topic

# 检查是否有离线分区
bin/kafka-run-class.sh kafka.tools.JmxTool \
  --object-name kafka.server:type=ReplicaManager,name=OfflinePartitionsCount \
  --jmx-url service:jmx:rmi:///jndi/rmi://broker1:9999/jmxrmi

依次升级其他Broker：
- 重复步骤1和2，每次只升级一个Broker
- 确保前一个Broker完全启动并加入集群后再升级下一个
- 升级Controller节点时可能会有短暂的Leader选举

升级后验证：

bash 复制代码

# 检查所有Broker版本
for broker in broker1 broker2 broker3; do
  echo "Checking $broker:"
  bin/kafka-broker-api-versions.sh --bootstrap-server $broker:9092 | grep "Broker version"
done

# 测试消息生产和消费
bin/kafka-console-producer.sh --bootstrap-server broker1:9092 --topic test-upgrade
bin/kafka-console-consumer.sh --bootstrap-server broker1:9092 --topic test-upgrade --from-beginning

# 检查消费者组状态
bin/kafka-consumer-groups.sh --bootstrap-server broker1:9092 --list

执行必要的Post-upgrade操作：
- 对于某些版本，可能需要执行特定的升级后操作
- 例如，Kafka 2.8+引入了KRaft模式，如需迁移需执行额外步骤
- 更新客户端版本以匹配Broker版本

升级注意事项：

严格按照官方文档的升级路径进行，跳过版本可能导致问题
生产环境建议先升级非关键集群
升级期间监控集群性能和健康状态
准备回滚计划，如遇严重问题可恢复到之前版本
升级过程中可能会有短暂的性能下降，建议在低峰期进行

版本升级最佳实践：

小版本升级（如2.8.0 → 2.8.1）通常较简单，风险低
大版本升级（如2.0 → 3.0）需要更详细的测试
升级前通知相关团队，准备应对可能的服务中断
记录升级过程和遇到的问题，作为未来升级的参考
升级后观察一段时间（如24小时），确认稳定后再结束升级

79. 什么是Kafka的镜像集群（MirrorMaker）？它的作用是什么？

Kafka MirrorMaker是Kafka官方提供的跨集群数据复制工具，用于在不同Kafka集群之间同步数据，构建镜像集群。

MirrorMaker工作原理 ：

MirrorMaker本质上是一个特殊的消费者-生产者应用：

从源集群（Source Cluster）消费消息
将消费的消息原封不动地发送到目标集群（Destination Cluster）
维持消息的顺序和偏移量关系
支持跨数据中心、跨区域的数据复制

MirrorMaker的主要作用：

灾难恢复：
- 在不同区域维护镜像集群，当主集群故障时可快速切换到镜像集群
- 确保数据不会因单点故障而丢失
数据本地化：
- 将数据复制到离用户更近的集群，减少访问延迟
- 满足数据合规性要求，将数据存储在特定区域
负载分担：
- 将读操作分流到镜像集群，减轻主集群压力
- 可在镜像集群上进行数据分析和报表生成，不影响主集群
集群迁移：
- 用于Kafka集群版本升级或架构变更时的数据迁移
- 支持平滑过渡，降低迁移风险

使用MirrorMaker的示例：

配置源集群消费者：

properties 复制代码

# source-consumer.properties
bootstrap.servers=source-broker1:9092,source-broker2:9092
group.id=mirror-maker-group
auto.offset.reset=earliest
enable.auto.commit=true
auto.commit.interval.ms=5000

配置目标集群生产者：

properties 复制代码

# destination-producer.properties
bootstrap.servers=dest-broker1:9092,dest-broker2:9092
compression.type=snappy
batch.size=16384
linger.ms=5

启动MirrorMaker：

bash 复制代码

# 同步所有主题
bin/kafka-mirror-maker.sh \
  --consumer.config source-consumer.properties \
  --producer.config destination-producer.properties \
  --whitelist ".*" \
  --num.streams 3  # 消费线程数

# 同步特定主题（使用正则表达式）
bin/kafka-mirror-maker.sh \
  --consumer.config source-consumer.properties \
  --producer.config destination-producer.properties \
  --whitelist "sales.*|users.*"

高级配置 - 使用JSON文件指定主题映射：

json 复制代码

{
  "version": 1,
  "rules": [
    {
      "pattern": ".*",
      "dest": "mirror-$0"
    },
    {
      "pattern": "internal-.*",
      "dest": null  # 不复制匹配的主题
    }
  ]
}

bash 复制代码

# 使用主题映射文件
bin/kafka-mirror-maker.sh \
  --consumer.config source-consumer.properties \
  --producer.config destination-producer.properties \
  --topic-mapping-file topic-mapping.json

MirrorMaker 2.0（Kafka 2.4+） ：

Kafka 2.4引入了MirrorMaker 2.0，提供更强大的功能：

双向复制支持
跨集群偏移量同步
自动创建主题
更好的监控和管理
容错能力增强

使用注意事项：

确保源集群和目标集群的网络连通性
目标集群应具有与源集群相当或更大的容量
考虑消息重复的可能性，设计幂等消费逻辑
监控复制延迟，确保数据及时同步
大规模复制时调整并行度（--num.streams）

80. 如何配置Kafka的跨地域复制？

跨地域复制是指在不同地理位置的Kafka集群之间同步数据，用于灾难恢复、数据本地化或全球业务支持。可通过MirrorMaker或第三方工具实现。

使用MirrorMaker配置跨地域复制：

准备工作：
- 确保两地集群网络互通（可通过VPN或专线连接）
- 源集群（Region A）和目标集群（Region B）已分别部署
- 测试网络延迟和带宽，评估复制性能

配置源集群消费者：

properties 复制代码

# consumer-region-a.properties
bootstrap.servers=region-a-broker1:9092,region-a-broker2:9092,region-a-broker3:9092
group.id=cross-region-replicator
auto.offset.reset=earliest
enable.auto.commit=true
auto.commit.interval.ms=10000

# 网络超时设置（跨地域网络延迟可能较高）
request.timeout.ms=30000
fetch.max.wait.ms=1000

配置目标集群生产者：

properties 复制代码

# producer-region-b.properties
bootstrap.servers=region-b-broker1:9092,region-b-broker2:9092,region-b-broker3:9092

# 增加超时设置应对网络延迟
retries=3
retry.backoff.ms=1000
request.timeout.ms=30000
delivery.timeout.ms=60000

# 启用压缩减少网络传输
compression.type=snappy

# 适当增大批次大小
batch.size=32768
linger.ms=10

创建主题映射配置：

json 复制代码

{
  "version": 1,
  "rules": [
    {
      "pattern": ".*",
      "dest": "region-a-$0"  # 在目标集群添加前缀，避免冲突
    },
    {
      "pattern": "temp-.*",
      "dest": null  # 不复制临时主题
    }
  ]
}

保存为topic-mapping.json

部署MirrorMaker服务 ：

建议在目标地域部署MirrorMaker，减少跨地域网络往返：

bash 复制代码

# 创建系统服务配置
cat > /etc/systemd/system/kafka-mirror.service << EOF
[Unit]
Description=Kafka Cross-Region MirrorMaker
After=network.target

[Service]
User=kafka
Group=kafka
ExecStart=/opt/kafka/bin/kafka-mirror-maker.sh \
  --consumer.config /opt/kafka/config/consumer-region-a.properties \
  --producer.config /opt/kafka/config/producer-region-b.properties \
  --topic-mapping-file /opt/kafka/config/topic-mapping.json \
  --num.streams 8
Restart=on-failure

[Install]
WantedBy=multi-user.target
EOF

# 启动服务
systemctl daemon-reload
systemctl start kafka-mirror
systemctl enable kafka-mirror

监控跨地域复制：

bash 复制代码

# 检查目标集群主题
bin/kafka-topics.sh --list --bootstrap-server region-b-broker1:9092

# 检查复制延迟
# 比较源集群和目标集群的消息数

使用MirrorMaker 2.0（MM2）的高级配置：

json 复制代码

// mm2.properties
{
  "clusters": {
    "region-a": {
      "bootstrap.servers": "region-a-broker1:9092,region-a-broker2:9092"
    },
    "region-b": {
      "bootstrap.servers": "region-b-broker1:9092,region-b-broker2:9092"
    }
  },
  "replica": {
    "region-a->region-b": {
      "topics": ".*",
      "groups": ".*",
      "enabled": true
    }
  },
  "checkpoints": {
    "enabled": true,
    "interval.seconds": 60
  },
  "sync.group.offsets.enabled": true,
  "offsets.topic.replication.factor": 3
}

启动MM2：

bash 复制代码

bin/connect-mirror-maker.sh config/mm2.properties

跨地域复制最佳实践：

网络优化：
- 使用专用网络链路，确保带宽和稳定性
- 启用压缩减少数据传输量
- 调整超时参数适应长距离网络延迟
数据选择：
- 只复制必要的主题，避免浪费带宽
- 敏感数据考虑加密传输（SSL）
容错设计：
- 配置自动重启MirrorMaker服务
- 监控复制延迟，设置告警阈值
- 考虑双向复制实现双活架构
性能优化：
- 增加复制线程数（--num.streams）
- 调整批处理参数，提高传输效率
- 在目标地域部署多个MirrorMaker实例，实现负载均衡
切换策略：
- 制定明确的故障切换流程
- 测试从镜像集群恢复服务的过程
- 考虑使用DNS或负载均衡器实现无缝切换

通过以上配置，可以实现可靠的Kafka跨地域复制，确保数据在不同地理位置的可用性和一致性。

二、100道Kafka 面试题目录列表

文章序号	Kafka 100道
1	Kafka面试题及详细答案100道（01-10）
2	Kafka面试题及详细答案100道（11-22）
3	Kafka面试题及详细答案100道（23-35）
4	Kafka面试题及详细答案100道（36-50）
5	Kafka面试题及详细答案100道（51-65）
6	Kafka面试题及详细答案100道（66-80）
7	Kafka面试题及详细答案100道（81-90）
8	Kafka面试题及详细答案100道（91-95）
9	Kafka面试题及详细答案100道（96-100）