kafka原理总结

消息模型

  • Producer:生产消息
  • Consumer:消费消息
  • Broker:Kafka 服务器,存储消息
  • Topic:消息的分类,类似 "文件夹"
  • Partition:Topic 分成多个分区,每个分区是有序、不可变的消息日志
  • Offset:分区内每条消息的唯一序号

内存结构

topic是逻辑分层,而Partition是真实的物理分层

每个partition就是存储的一个文件夹,里面有三个文件组成

  • .log 文件
    真正的消息数据
    消息按顺序存储
  • .index 文件
    稀疏索引
    记录 offset → 文件位置(position)
    用于快速定位消息
  • .timeindex 文件(可选)
    时间戳索引
    用于按时间查找消息

经典问题

kafka为什么快

  • 顺序写磁盘
  • 零拷贝
  • 批量处理
  • 分区并行
  • 页缓存(OS cache)
零拷贝是什么

零拷贝是指零CPU拷贝,不需要CPU去操作

一次读取与发送程序都需要经过操作系统去操作磁盘,整体的流程如下:

需要经历四次内存拷贝,可以通过mmap跟sendfile去做到零拷贝

mmap

mmap是操作系统提供的一个方法,可以将内核空间的缓冲区映射到用户空间(在用户区开辟一个空间与内核缓冲区直接映射)

如下图:直接通过mmap将内核缓冲区映射到用户空间.省去了从用户区到内核区写入去发送这一步

sendfile

sendfile是操作系统提供的一个方法.程序调用sendfile会将内核缓冲区直接写入网卡,不需要过用户内存

sendfile不需要CPU参与,而是DMA控制器直接操作就好。CPU还能正常运作

sendfile跟mmap区别
  • sendfile返回发送数
  • mmap返回发送的具体内容
  • kafka使用的是sendfile,rocketMQ使用的是mmap,所以kafka更快
为啥rocketMQ不能使用sendfile?

关键点:Consumer 需要的消息在 CommitLog 中不是连续的

这意味着:

Broker 无法直接把 "磁盘上的一段连续数据" 发给 Consumer

必须在用户态把分散的消息读取、组装成一个完整的响应包

因此无法使用 sendfile

那 RocketMQ 为什么不改成 Kafka 那种结构?

RocketMQ 设计目标不同:

Kafka 更适合大数据吞吐量场景

RocketMQ 更适合金融级可靠性、低延迟、大量 Topic 的业务场景

RocketMQ 的 ConsumeQueue 结构让它能:

支持按 tag 过滤

支持消息重试

支持消息轨迹

支持事务消息

Kafka 的高可用是怎么实现的

  • 副本机制
  • ISR 列表
  • Leader 负责读写
  • Follower 同步数据
  • 副本故障时从 ISR 中重新选举 Leader
ISR是什么?怎么保障数据高可用?

ISR用一句话讲解就是什么时候去ack成功

有以下几种常见枚举,可根据业务场景,自己去配置

  • 写入主Broker则直接返回(无保障)
  • 写入一主一备则返回
  • 写入一主一半的备份则返回
  • 主跟备全写完再返回
    综上,业务测可以自己配置ISR去保障数据不丢失

为什么 Kafka 不支持读写分离?

读写分离是指,读取节点跟写入节点不是同一个(读的是读从节点)

为了保证一致性,Follower 可能落后 Leader,如果允许读 Follower,会出现数据不一致

Kafka 的消息是否会丢失?如何避免?

同ISR原理。可设置ack=all,设置全部写完再返回.

Kafka 的再平衡是什么?为什么会发生?

再平衡是Partition重新分配的过程。

触发条件:

  • partition扩缩
    影响:
  • 期间消费者无法消费消息

如何保证消息的顺序性?

  • 单分区 + 单消费者
  • 多分区无法保证全局顺序,但可以保证分区内顺序
  • 生产者按 key 发送(相同 key 进入同一分区)(美团saas的支付消息就是这么保障的)

MQ推跟拉的读取方式主要区别是啥?

最大的点如下:

主动权不同

推:Broker 主动推送,broker逻辑更复杂,且可能击垮消费者(需要维护状态、连接、限流)

Pull:消费者 主动拉取 broker逻辑更简单(需要处理轮询、阻塞、消息堆积)

相关推荐
实战项目2 小时前
分布式协作入侵检测系统的报警信息管理
分布式
无心水5 小时前
【分布式利器:腾讯TSF】10、TSF故障排查与架构评审实战:Java架构师从救火到防火的生产哲学
java·人工智能·分布式·架构·限流·分布式利器·腾讯tsf
小北方城市网16 小时前
分布式锁实战指南:从选型到落地,避开 90% 的坑
java·数据库·redis·分布式·python·缓存
范桂飓18 小时前
大模型分布式训练框架 Megatron-LM
人工智能·分布式
oMcLin21 小时前
如何在Debian 11上通过配置MySQL 8.0的分布式架构,提升跨区域数据同步的效率与延迟?
分布式·mysql·debian
一条咸鱼_SaltyFish1 天前
[Day15] 若依框架二次开发改造记录:定制化之旅 contract-security-ruoyi
java·大数据·经验分享·分布式·微服务·架构·ai编程
IT 行者1 天前
Spring Security 7 OAuth2 授权码分布式存储之Redis存储方案
redis·分布式·spring
潇凝子潇1 天前
kafka之监控告警
分布式·kafka
Light601 天前
从“报告”到“能力”——构建智能化、可审计的数据治理闭环——领码 SPARK 数据质量平台白皮书
大数据·分布式·spark