【大数据学习 | kafka高级部分】kafka的优化参数整理

1. 优化参数

参数 解释
buffer.memory RecordAccumulator 缓冲区总大小,默认 32m
batch.size 默认 16k,sender线程拉取数据大小
linger.ms sender线程拉取数据等待时长
acks 确认应答 0 1 -1
max.in.flight.requests.per.connection 没有ack返回时候可以发送几次数据
retries producer失败重试次数
enable.idempotence 启幂等性,默认 true
compression.type 生产者发送的所有数据的压缩方式
auto.leader.rebalance.enable leader是否自动切换
leader.imbalance.per.broker.percentage leader均衡比10%
leader.imbalance.check.interval.seconds leader均衡检测时间五分钟
log.segment.bytes segment大小
log.index.interval.bytes 每4k生成一个索引数据,写入一次文件
log.cleanup.policy 日志删除方式
log.retention.hours 数据保存时长
enable.auto.commit 自动提交
auto.commit.interval.ms 提交间隔
auto.offset.reset 初始化消费位置
offsets.topic.num.partitions __consumer_offsets分区数量
session.timeout.ms 消费者断开超时时间
max.poll.records 消费者拉取条数
fetch.max.bytes 消费者拉取大小
partition.assignment.strategy 消费者分区分配策略

2. 数据吞吐量和数据重复问题

数据在消费的时候可能会遇见数据堆积,无法及时消费计算的问题

这个时候可以适当的调节broker的数量和partition的数量,让多个机器帮助进行处理可提高吞吐量,并且分区越多消费者就可以适当增多,让消费速度得到很大的提升

适当增加每次拉取的大小也会增加消费速度。

java 复制代码
max.poll.records  消费者拉取条数 
fetch.max.bytes  消费者拉取大小

kafka数据稳定性保证。

首先从producer出发

ack = 0 or ack = 1 会出现数据丢失问题

ack = -1 会出现数据重复问题

开始幂等性可以进行单分区去重

保证一批次数据稳定性可以开启事物

消费者部分如果是自动提交偏移量会出现重复消费问题,手动保存偏移量就不会出现这个问题

相关推荐
lkbhua莱克瓦247 分钟前
进阶-存储对象1-视图
java·数据库·sql·mysql·视图
Elastic 中国社区官方博客12 分钟前
Elasticsearch:Jina Reader
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina
-XWB-13 分钟前
【Oracle】Oracle诊断系列(1/6):健康体检指南——快速掌握数据库状态
数据库·oracle
greatonce18 分钟前
润米科技业财一体化升级:打破月结后45天对账瓶颈,入账效率提升70%,对账效率提升90%
大数据·科技
武子康27 分钟前
大数据-212 K-Means 聚类实战指南:从无监督概念到 Inertia、K 值选择与避坑
大数据·后端·机器学习
3***g20541 分钟前
Xshell高效运维实战技术文章大纲核心功能与应用场景
大数据
dishugj1 小时前
【oracle】RMAN Catalog 与 Nocatalog 核心区别及实操指南
数据库·oracle·rman
龙亘川1 小时前
城管住建领域丨市政设施监测功能详解——桥梁运行监测系统(2)、管廊运维监测系统(3)
大数据·运维·人工智能·物联网·政务
2501_920953861 小时前
行业内比较好的6S管理咨询平台
大数据·运维·人工智能
上海乐备实生物1 小时前
肝硬化生物标志物检测技术研究及应用进展
大数据·乐备实·labex·生物标志物·多因子检测·肝硬化·多重细胞因子检测