Kafka3.0.0版本——文件清理策略

目录

一、文件清理策略

1.1、文件清理策略的概述

  • Kafka 中默认的日志保存时间为 7 天,可以通过调整如下参数修改保存时间。

    参数 解释
    log.retention.hours 小时,最低优先级(默认 7天)
    log.retention.minutes 分钟
    log.retention.ms 毫秒,最高优先级
    log.retention.check.interval.ms 负责设置检查周期(默认 5 分钟)

1.2、文件清理策略的官方文档

1.3、日志超过了设置的时间如何处理

  • Kafka 中提供的日志清理策略有 delete 和 compact两种。

1.3.1、delete日志删除(将过期数据删除)

  • log.cleanup.policy = delete 所有数据启用删除策略。
    (1)、基于时间:默认打开。以 segment 中所有记录中的最大时间戳作为该文件时间戳。
    (2)、基于大小:默认关闭。超过设置的所有日志总大小,删除最早的 segment。log.retention.bytes,默认等于-1,表示无穷大。

1.3.2、compact日志压缩

  • compact日志压缩:对于相同key的不同value值,只保留最后一个版本。
  • log.cleanup.policy = compact 所有数据启用压缩策略
  • 压缩后的offset可能是不连续的,比如上图中没有6,当从这些offset消费消息时,将会拿到比这个offset大的offset对应的消息,实际上会拿到offset为7的消息,并从这个位置开始消费。
  • 这种策略只适合特殊场景,比如消息的key是用户ID,value是用户的资料,通过这种压缩策略,整个消息集里就保存了所有用户最新的资料。
相关推荐
闻哥42 分钟前
Kafka高吞吐量核心揭秘:四大技术架构深度解析
java·jvm·面试·kafka·rabbitmq·springboot
indexsunny14 小时前
互联网大厂Java面试实战:Spring Boot微服务在电商场景中的应用与挑战
java·spring boot·redis·微服务·kafka·spring security·电商
TTBIGDATA14 小时前
【Atlas】Ambari 中 开启 Kerberos + Ranger 后 Atlas Hook 无权限访问 Kafka Topic:ATLAS_HOOK
大数据·kafka·ambari·linq·ranger·knox·bigtop
岁岁种桃花儿18 小时前
Kafka从入门到上天系列第一篇:kafka的安装和启动
大数据·中间件·kafka
TTBIGDATA2 天前
【Atlas】Atlas Hook 消费 Kafka 报错:GroupAuthorizationException
hadoop·分布式·kafka·ambari·hdp·linq·ranger
indexsunny2 天前
互联网大厂Java面试实战:微服务与Spring生态技术解析
java·spring boot·redis·kafka·mybatis·hibernate·microservices
编程彩机2 天前
互联网大厂Java面试:从Spring Boot到分布式事务的技术场景解析
spring boot·kafka·分布式事务·微服务架构·java面试·技术解析
没有bug.的程序员2 天前
RocketMQ 与 Kafka 深度对垒:分布式消息引擎内核、事务金融级实战与高可用演进指南
java·分布式·kafka·rocketmq·分布式消息·引擎内核·事务金融
yumgpkpm2 天前
华为昇腾300T A2训练、微调Qwen过程,带保姆式命令,麒麟操作系统+鲲鹏CPU
hive·hadoop·华为·flink·spark·kafka·hbase
ApachePulsar2 天前
演讲回顾|谙流科技在 Kafka on Pulsar 之上的探索
分布式·科技·kafka