JAVA面试题大全(十四)

kafka不能脱离zookper单独使用，因为kafka使用zookper管理和协调kafka的节点服务器。

Kafka提供了多种数据保留策略，这些策略用于定义消息在Kafka中的保留时长和存储空间的管理。以下是Kafka中常见的数据保留策略：

时间保留策略（Time-based Retention） ：
- 根据消息在主题（Topic）中的时间戳来决定消息的保留时长。
- 通过设置主题的retention.ms参数（或log.retention.hours/log.retention.minutes等），可以指定消息在主题中的最长存储时间（单位：毫秒）。
- 超过该时间的消息将被自动删除。
大小保留策略（Size-based Retention） ：
- 根据主题中消息的总大小来决定消息的保留时长。
- 通过设置主题的retention.bytes参数，可以指定主题中消息的最大存储大小（单位：字节）。
- 一旦主题中消息的总大小超过了该阈值，旧的消息将被删除。
日志压缩（Log Compaction） ：
- 这不是一个直接的保留策略，但它是Kafka中用于管理旧数据的一种方式。
- 当启用日志压缩时，Kafka将只保留每个key的最新值，从而删除具有相同key的旧消息。
- 这有助于减少存储空间的使用，并允许长时间保留key-value数据，而不仅仅是消息本身。
- 通过设置cleanup.policy=compact来启用日志压缩。

在实际应用中，Kafka允许开发人员根据业务需求为每个Topic设置不同的数据保留策略。这意味着一个Topic可以使用时间保留策略，而另一个Topic可以使用大小保留策略或同时结合使用这些策略。此外，Kafka的默认数据保留策略通常根据具体部署和配置有所不同。

需要注意的是，Kafka的数据保留策略是通过Kafka的日志清理器（Log Cleaner）来实现的，该清理器会定期扫描日志并删除过期的消息或压缩日志以释放空间。同时，Kafka的Broker也会监控日志的大小，并在达到配置的阈值时触发清理操作。

执行数据清除工作，时间和大小不论哪个满足条件，都会清空数据。

集群的数量不是越多越好，最好不要超过 7 个，因为节点越多，消息复制需要的时间就越长，整个群组的吞吐量就越低。

集群数量最好是单数，因为超过一半故障集群就不能用了，设置为单数容错率更高。