kafka原理总结

消息模型

  • Producer:生产消息
  • Consumer:消费消息
  • Broker:Kafka 服务器,存储消息
  • Topic:消息的分类,类似 "文件夹"
  • Partition:Topic 分成多个分区,每个分区是有序、不可变的消息日志
  • Offset:分区内每条消息的唯一序号

内存结构

topic是逻辑分层,而Partition是真实的物理分层

每个partition就是存储的一个文件夹,里面有三个文件组成

  • .log 文件
    真正的消息数据
    消息按顺序存储
  • .index 文件
    稀疏索引
    记录 offset → 文件位置(position)
    用于快速定位消息
  • .timeindex 文件(可选)
    时间戳索引
    用于按时间查找消息

经典问题

kafka为什么快

  • 顺序写磁盘
  • 零拷贝
  • 批量处理
  • 分区并行
  • 页缓存(OS cache)
零拷贝是什么

零拷贝是指零CPU拷贝,不需要CPU去操作

一次读取与发送程序都需要经过操作系统去操作磁盘,整体的流程如下:

需要经历四次内存拷贝,可以通过mmap跟sendfile去做到零拷贝

mmap

mmap是操作系统提供的一个方法,可以将内核空间的缓冲区映射到用户空间(在用户区开辟一个空间与内核缓冲区直接映射)

如下图:直接通过mmap将内核缓冲区映射到用户空间.省去了从用户区到内核区写入去发送这一步

sendfile

sendfile是操作系统提供的一个方法.程序调用sendfile会将内核缓冲区直接写入网卡,不需要过用户内存

sendfile不需要CPU参与,而是DMA控制器直接操作就好。CPU还能正常运作

sendfile跟mmap区别
  • sendfile返回发送数
  • mmap返回发送的具体内容
  • kafka使用的是sendfile,rocketMQ使用的是mmap,所以kafka更快
为啥rocketMQ不能使用sendfile?

关键点:Consumer 需要的消息在 CommitLog 中不是连续的

这意味着:

Broker 无法直接把 "磁盘上的一段连续数据" 发给 Consumer

必须在用户态把分散的消息读取、组装成一个完整的响应包

因此无法使用 sendfile

那 RocketMQ 为什么不改成 Kafka 那种结构?

RocketMQ 设计目标不同:

Kafka 更适合大数据吞吐量场景

RocketMQ 更适合金融级可靠性、低延迟、大量 Topic 的业务场景

RocketMQ 的 ConsumeQueue 结构让它能:

支持按 tag 过滤

支持消息重试

支持消息轨迹

支持事务消息

Kafka 的高可用是怎么实现的

  • 副本机制
  • ISR 列表
  • Leader 负责读写
  • Follower 同步数据
  • 副本故障时从 ISR 中重新选举 Leader
ISR是什么?怎么保障数据高可用?

ISR用一句话讲解就是什么时候去ack成功

有以下几种常见枚举,可根据业务场景,自己去配置

  • 写入主Broker则直接返回(无保障)
  • 写入一主一备则返回
  • 写入一主一半的备份则返回
  • 主跟备全写完再返回
    综上,业务测可以自己配置ISR去保障数据不丢失

为什么 Kafka 不支持读写分离?

读写分离是指,读取节点跟写入节点不是同一个(读的是读从节点)

为了保证一致性,Follower 可能落后 Leader,如果允许读 Follower,会出现数据不一致

Kafka 的消息是否会丢失?如何避免?

同ISR原理。可设置ack=all,设置全部写完再返回.

Kafka 的再平衡是什么?为什么会发生?

再平衡是Partition重新分配的过程。

触发条件:

  • partition扩缩
    影响:
  • 期间消费者无法消费消息

如何保证消息的顺序性?

  • 单分区 + 单消费者
  • 多分区无法保证全局顺序,但可以保证分区内顺序
  • 生产者按 key 发送(相同 key 进入同一分区)(美团saas的支付消息就是这么保障的)

MQ推跟拉的读取方式主要区别是啥?

最大的点如下:

主动权不同

推:Broker 主动推送,broker逻辑更复杂,且可能击垮消费者(需要维护状态、连接、限流)

Pull:消费者 主动拉取 broker逻辑更简单(需要处理轮询、阻塞、消息堆积)

相关推荐
少许极端15 小时前
Redis入门指南(八):从零到分布式缓存-集群机制、缓存机制、分布式锁
redis·分布式·缓存·分布式锁
珠海西格1 天前
“主动预防” vs “事后补救”:分布式光伏防逆流技术的代际革命,西格电力给出标准答案
大数据·运维·服务器·分布式·云计算·能源
AC赳赳老秦1 天前
专利附图说明:DeepSeek生成的专业技术描述与权利要求书细化
大数据·人工智能·kafka·区块链·数据库开发·数据库架构·deepseek
小邓吖1 天前
自己做了一个工具网站
前端·分布式·后端·中间件·架构·golang
曹天骄1 天前
基于 Cloudflare Worker 构建分布式测速调度系统:KV 与 D1 数据层设计实战教程
分布式·缓存
Prince-Peng1 天前
技术架构系列 - 详解Redis
数据结构·数据库·redis·分布式·缓存·中间件·架构
曹天骄1 天前
基于 Cloudflare Worker + KV 构建高性能分布式测速调度系统(工程实战)
分布式
奋进的芋圆1 天前
Spring Boot 3 高并发事务与分布式事务企业级完整解决方案
spring boot·分布式
没有bug.的程序员1 天前
Spring Boot 与 Kafka:消息可靠性传输与幂等性设计的终极实战
java·spring boot·后端·kafka·幂等性·消息可靠
你才是臭弟弟1 天前
Docker 拉取 Kafka 镜像及策略配置
docker·容器·kafka