浅谈Kafka（一）

快乐江小鱼2024-08-23 17:49

浅谈Kafka（一）

文章目录

- 浅谈Kafka（一）

消息队列中间件就是用来存储消息的软件。举个例子来说，为了分析网站的用户行为，我们需要记录用户的访问日志。这些日志可以看成是一条条的消息，我们可以将它们保存到消息队列中。将来有一些应用程序需要处理这些日志，就可以虽是将这些日志取出来处理。

Kafa的设计是什么样的

Kafka把消息以主题topic为单位进行归纳，把向发布消息的程序称为生产者producer，订阅主题并消费消息的程序称为消费者consumer。
Kafka以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个broker。生产者通过网络把消息发送给Kafka集群，集群向消费者提供消息。

数据传输的事务定义

数据传输的事务定义通常有最多一次、至少一次、精确的一次三种。

最多一次是消息不会被重复发送，最多被传输一次，但也可能一次都不传输。
至少一次是消息不会被漏发，至少被传输一次，但也可能会被重复传输。
精确的一次是不会漏发也不会重复传输，每个消息都被传输一次。

消息队列的应用场景

异步处理，比如电商网站中，新用户注册时，需要将用户信息存储在数据库中，同时还需要额外发送注册的邮件通知，以及短信注册码给用户。但是因为发送邮件、发送短信注册码需要连接外部服务器，需要额外等待一段时间。此时，就可以使用消息对来来进行异步处理，从而实现快速响应。
应用解耦
流量削峰
日志处理

Kafka怎么样判断节点是否存活

节点必须可以维护和zookeeper的连接，zookeeper通过心跳检测机制检查每个节点的连接。
如果节点是follower，则必须能够及时同步leader的写操作，延迟不能太久。

Kafka的消息是采用pull模式还是push模式

消费者从broker拉取消息是pull模式，而broker把消息推送给消费者是push模式。Kafka采用的设计是生产者把消息推送到broker，消费者从broker拉取消息。
一些消息系统比如Apache Flume采用了push模式，把消息推送到下游的消费者。由broker决定消息推送的频率，对于不同消费速率的消费者就不太好处理了。消息系统都致力于让消费者以最大速率消费消息，但是push模式下，当broker的推送速率大于消费者的消费速率时，消费者可能要崩溃了，最终Kafka采取了pull模式。
pull模式好处是消费者可以根据自己的消费能力决定是否批量的从broker拉取消息；缺点是如果broker没有可供消费的消息，会导致消费者不断在循环中轮询，直到新消息到达。Kafka可以通过设置参数让消费者阻塞直到新消息到达。

Kafka在磁盘上的消息格式

消息由一个固定长度的头部和可变长度的字节数组组成，头部包含了一个版本号和CRC32校验码。消息长度有4bytes，值为（1+4+n）。版本号占1byte，CRC校验码占4bytes，具体的消息占nbytes。

Kafka高效文件存储设计特点

Kafka把topic中一个partition大文件分成多个小文件段，通过多个小文件段，就容易定期清除或删除已经消费完的文件，减少磁盘占用。
通过索引信息可以快速定位message和确定response的最大大小。
通过index元数据全部映射到memory，避免段文件的IO磁盘操作。
通过索引文件稀疏存储，可以降低index文件元数据占用空间大小。

Kafka与传统消息系统之间的区别

Kafka持久化日志可以被重复读取和无限期留存。
Kafka是一个分布式系统，以集群的方式运行，可以灵活伸缩，在内部通过复制数据提升容错能力和高可用性。
Kafka支持实时的流式处理。

Kafka的分区数据怎样保存到磁盘

主题中的多个分区以文件夹的形式保存到broker，每个分区序号从0递增并且消息有序。分区文件夹下有多个段segment文件（.index，.log）。段文件里的大小和配置文件大小一致可以根据需要进行修改，默认为1g，如果大于1g，就会滚动一个新的段并且以上一个段最后一条消息的偏移量命名。

Kafka消费者如何消费消息

消费者每次消费数据时，记录消费的物理偏移量offset的位置，等到下次消费时，会接着上次位置继续消费。

消费者负载均衡策略

一个消费者组中的一个分片对应一个消费者成员，它能保证每个消费者成员都能访问，如果组中的成员太多会有空闲的成员。

数据有序

一个消费者组中的内部是有序的，消费者组和消费者组之间是无须的。

Kafka生产数据时数据的分组策略

数据有序

一个消费者组中的内部是有序的，消费者组和消费者组之间是无须的。

Kafka生产数据时数据的分组策略

生产者决定发送到集群的那个分区中，每条消息都是以键值对的格式。

上一篇：Java面试题---微服务

下一篇：Java高级编程：深入探索并发编程与线程安全

热门推荐

01GitHub 镜像站点 02幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 03AI科技热点日报 | 2026年07月01日 042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 092026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？10几个好用的ip纯净度检测网站