Kafka

1.定义

Kafka:一个分布式基于发布/订阅模式的消息队列。

发布者发布消息进入队列后,每个订阅者都能在一定时间内获取发布的消息(Kafka:消费者通过主动拉取pull队列)。

缺点:即使没有消息,消费者仍然需要轮询消息队列

pull模式:可以根据 Consumer的消费能力以适当的速率消费消息,消费的方式、速率可以由消费者制定。

2.作用

  • 解耦:程序请求结束后可直接返回,无需等待任务执行。 程序与执行独立。
  • 缓冲:解决生产信息与消费信息处理速度不一致的情况
  • 峰值处理能力:应对突发访问量剧增的情况
  • 异步通信

3.Kafka架构

Kafka主要分为生产者、Kafka集群、消费者三大部分。

集群由多个Broker(代理服务器)组成,消息以Topic(主题)为分类,较大的主题可以分为多个Partition(分区)。由于分布式存储的缘故,每个分区都会成为leader/follower的一种,数据只从leader分区进行传输,follower分区仅作为备份。

消费者可以组成消费者组(Consumer group),每一个消费组都能够获得全量的消息,同一个消费者组中只有1个人可以获得相同的消息队列中的消息(提高并发)。一般情况下一个应用对应着一个消费组。

消息队列中的offset(偏移量,记录现在接收到第几条消息了)在0.9版本之前存储在ZK中,在之后存储在Kafka集群中的系统Topic中,因为消费者拉取消息时会频繁的跟ZK进行交互影响效率。

4.存储方式

Kafka的消息数据是存放在于磁盘 上的。因为经过对磁盘读写的一系列优化,磁盘的顺序读取速度>内存随机访问速度

在文件中的实际存储是以Partition作为单位 的,文件夹的命名规则:<topic_name>-<partition_id>

假设我们现在 Kafka 集群只有一个 Broker,我们创建 2 个 Topic 名称分别为:「topic1」和「topic2」,Partition 数量分别为 1、2,那么我们的根目录下就会创建如下三个文件夹:

复制代码
| --topic1-0
| --topic2-0
| --topic2-1

当客户端写入消息时,文件夹下会生成Segment文件(包含log、index两部分),log文件是消息的内容,index是消息的索引。

消息的写入:Partition的写入为尾部追加,这样的顺序写磁盘操作让 Kafka 的效率非常高。

消息的删除:消息被消费后不会立即删除,只会定期删除过期的Segment文件。

5.docker创建集群(kraft版 无zookeeper)

Docker单机部署kafka集群https://www.jianshu.com/p/67a903d6c44c

Docker多机部署kafka集群:https://www.cnblogs.com/linjiangplus/p/16424137.html

未完待续...

参考:

https://zhuanlan.zhihu.com/p/74063251

相关推荐
搞科研的小刘选手8 小时前
【中山大学主办】第六届计算机科学与区块链国际学术会议(CCSB 2026)
分布式·神经网络·计算机视觉·区块链·计算机科学·共识算法·自然语言
小饼干在学嘎瓦9 小时前
本地缓存和分布式缓存如何选择?
分布式·缓存
XLYcmy11 小时前
全链路验证测试系统:一个针对智能代理(Agent)系统全链路能力的自动化验证脚本
分布式·python·http·网络安全·ai·llm·agent
phltxy19 小时前
HAProxy安装与RabbitMQ负载均衡配置
分布式·rabbitmq·负载均衡
jiayong2321 小时前
Kafka 高吞吐消息链路常见面试问题及详细解答
分布式·面试·kafka
卷毛迷你猪21 小时前
快速实验篇(A2-2)数据清洗规则修正与多语言实现验证
hadoop·分布式
业精于勤_荒于稀21 小时前
登录鉴权-ai
分布式
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章05:Kafka消息队列 - 工业数据流传输
人工智能·hadoop·学习·架构·kafka·工业智能体·高炉炼铁智能化
Kurisu5751 天前
深度拆解:从 CAP 定理到 Raft 协议的分布式一致性演进
分布式
kuokay1 天前
深入理解 LLM 分布式训练全栈:从硬件到 LLaMA-Factory
分布式·llama·deepspeed·fsdp·llama-factory·accelerate