kafka原理总结

消息模型

  • Producer:生产消息
  • Consumer:消费消息
  • Broker:Kafka 服务器,存储消息
  • Topic:消息的分类,类似 "文件夹"
  • Partition:Topic 分成多个分区,每个分区是有序、不可变的消息日志
  • Offset:分区内每条消息的唯一序号

内存结构

topic是逻辑分层,而Partition是真实的物理分层

每个partition就是存储的一个文件夹,里面有三个文件组成

  • .log 文件
    真正的消息数据
    消息按顺序存储
  • .index 文件
    稀疏索引
    记录 offset → 文件位置(position)
    用于快速定位消息
  • .timeindex 文件(可选)
    时间戳索引
    用于按时间查找消息

经典问题

kafka为什么快

  • 顺序写磁盘
  • 零拷贝
  • 批量处理
  • 分区并行
  • 页缓存(OS cache)
零拷贝是什么

零拷贝是指零CPU拷贝,不需要CPU去操作

一次读取与发送程序都需要经过操作系统去操作磁盘,整体的流程如下:

需要经历四次内存拷贝,可以通过mmap跟sendfile去做到零拷贝

mmap

mmap是操作系统提供的一个方法,可以将内核空间的缓冲区映射到用户空间(在用户区开辟一个空间与内核缓冲区直接映射)

如下图:直接通过mmap将内核缓冲区映射到用户空间.省去了从用户区到内核区写入去发送这一步

sendfile

sendfile是操作系统提供的一个方法.程序调用sendfile会将内核缓冲区直接写入网卡,不需要过用户内存

sendfile不需要CPU参与,而是DMA控制器直接操作就好。CPU还能正常运作

sendfile跟mmap区别
  • sendfile返回发送数
  • mmap返回发送的具体内容
  • kafka使用的是sendfile,rocketMQ使用的是mmap,所以kafka更快
为啥rocketMQ不能使用sendfile?

关键点:Consumer 需要的消息在 CommitLog 中不是连续的

这意味着:

Broker 无法直接把 "磁盘上的一段连续数据" 发给 Consumer

必须在用户态把分散的消息读取、组装成一个完整的响应包

因此无法使用 sendfile

那 RocketMQ 为什么不改成 Kafka 那种结构?

RocketMQ 设计目标不同:

Kafka 更适合大数据吞吐量场景

RocketMQ 更适合金融级可靠性、低延迟、大量 Topic 的业务场景

RocketMQ 的 ConsumeQueue 结构让它能:

支持按 tag 过滤

支持消息重试

支持消息轨迹

支持事务消息

Kafka 的高可用是怎么实现的

  • 副本机制
  • ISR 列表
  • Leader 负责读写
  • Follower 同步数据
  • 副本故障时从 ISR 中重新选举 Leader
ISR是什么?怎么保障数据高可用?

ISR用一句话讲解就是什么时候去ack成功

有以下几种常见枚举,可根据业务场景,自己去配置

  • 写入主Broker则直接返回(无保障)
  • 写入一主一备则返回
  • 写入一主一半的备份则返回
  • 主跟备全写完再返回
    综上,业务测可以自己配置ISR去保障数据不丢失

为什么 Kafka 不支持读写分离?

读写分离是指,读取节点跟写入节点不是同一个(读的是读从节点)

为了保证一致性,Follower 可能落后 Leader,如果允许读 Follower,会出现数据不一致

Kafka 的消息是否会丢失?如何避免?

同ISR原理。可设置ack=all,设置全部写完再返回.

Kafka 的再平衡是什么?为什么会发生?

再平衡是Partition重新分配的过程。

触发条件:

  • partition扩缩
    影响:
  • 期间消费者无法消费消息

如何保证消息的顺序性?

  • 单分区 + 单消费者
  • 多分区无法保证全局顺序,但可以保证分区内顺序
  • 生产者按 key 发送(相同 key 进入同一分区)(美团saas的支付消息就是这么保障的)

MQ推跟拉的读取方式主要区别是啥?

最大的点如下:

主动权不同

推:Broker 主动推送,broker逻辑更复杂,且可能击垮消费者(需要维护状态、连接、限流)

Pull:消费者 主动拉取 broker逻辑更简单(需要处理轮询、阻塞、消息堆积)

相关推荐
发际线还在8 小时前
互联网大厂Java三轮面试全流程实战问答与解析
java·数据库·分布式·面试·并发·系统设计·大厂
攒了一袋星辰11 小时前
SequenceGenerator高并发有序顺序号生成中间件 - 架构设计文档
java·后端·spring·中间件·架构·kafka·maven
Leon-Ning Liu15 小时前
OGG同步Oracle到Kafka
数据库·oracle·kafka
Francek Chen16 小时前
【大数据存储与管理】分布式数据库HBase:05 HBase运行机制
大数据·数据库·hadoop·分布式·hdfs·hbase
zzzzzwbetter16 小时前
Hadoop完全分布式部署-Master的NameNode以及Slaver2的DataNode未启动
大数据·hadoop·分布式
杨航 AI16 小时前
Frank-Job +Dify 实现openclaw Cron 分布式任务调度的AI化思考
人工智能·分布式
guoguangwu16 小时前
kafka容器增加健康检查
分布式·kafka
Java爱好狂.17 小时前
2026如何备战互联网大厂Java面试?
java·分布式·高并发·java面试·后端开发·java架构师·互联网大厂
wanhengidc17 小时前
服务器对于企业的作用
大数据·运维·服务器·分布式
墨着染霜华17 小时前
Java实战:封装Redis非阻塞分布式锁,彻底解决表单重复提交主键冲突
java·redis·分布式