kafka中的数据清理策略

꧁薄暮꧂2024-11-22 9:42

Kafka 中的数据清理策略主要用于控制数据的保留时间和存储空间，确保系统不会因为数据积累过多而影响性能。Kafka 提供了两种主要的数据清理策略：

1、基于时间的清理策略：

配置参数：log.retention.hours 或 log.retention.ms
工作原理：Kafka 会根据配置的时间阈值自动删除超过该时间的消息。
示例：如果设置 log.retention.hours=72，则 Kafka 会删除超过72小时的消息。

2、基于大小的清理策略：

配置参数：log.retention.bytes
工作原理：Kafka 会根据配置的存储空间阈值自动删除最早的消息，以确保每个分区的总大小不超过设定的值。
示例：如果设置 log.retention.bytes=1073741824，则 Kafka 会确保每个分区的总大小不超过1GB，超出部分的最早消息将被删除。

Kafka的消息存储在磁盘中，为了控制磁盘占用空间，Kafka需要不断地对过去的一些消息进行清理工作。Kafka的每个分区都有很多的日志文件，这样也是为了方便进行日志的清理。在Kafka中，提供两种日志清理方式：

日志删除（Log Deletion）：按照指定的策略直接删除 不符合条件的日志。
日志压缩（Log Compaction）：按照消息的key进行整合，有相同key的但有不同value值，只保留最后一个版本。

上一篇：Linux上安装单机版ElasticSearch6.8.1

下一篇：[RN -Android] waiting for debugger 问题解决

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04GitLab 零基础入门指南：从安装到项目管理全流程 05Linux下V2Ray安装配置指南 06NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 07Labelme从安装到标注：零基础完整指南 08安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）09在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）10jdk21下载、安装（Windows、Linux、macOS）