Kafka -- 架构、分区、副本

1、Kafka的架构:

1、producer:消息的生产者

2、consumer:消息的消费者

3、broker:kafka集群的服务者,一个broker就是一个节点,主要是负责处理消息的读、写的请求和存储消息。在kafka cluster中包含很多的broker。

4、topic:消息的队列/分类,就类似一张表,里面用来接收数据,数据的格式可以随意,但是一般都会统一。

5、zookeeper:负责存储元数据。

2、kafka的分区和副本:

1、每一个topic可以分成多个partition,每一个分区一张表数据,在Kafka底层中就是一个以log结尾的文件,分别存在对应的data目录下(通过配置文件指定的)

使用分区的原因是实现分布式,一个topic中的数据非常大的时候,如果只存在一个分区那么数据压力就比较大。

2、每个partition内部消息强有序,其中的每个消息都有一个序号叫offset(消费偏移量),再取数据的时候就会根据这个偏移量来取数据

3、一个partition只对应一个broker,一个broker可以管多个partition

4、消息不经过内存缓冲,是直接写入磁盘中。

5、根据时间策略删除数据,并不是数据消费完成就删除数据。默认是7天删除一次数据,删除的一整个文件,默认是1G左右生成一个文件。对于存储的时间可以通过修改配置文件来决定存储的日期。

6、producer自己决定往哪个partition写消息,可以是轮询的负载均衡,或者是基于hash的partition策略

轮询的负载均衡:数据数循环的向每一partition中写,数据比较均衡

基于hash的partition策略:数据会根据hash值据欸的那个进入哪个partition,可以根据相同的key进入同一个partition中。但是可能会造成一个问题:数据倾斜的问题。

7、consumer(消费者)自己维护消费到哪个offset,每一个用户都记录自己所消费的offset,这些数据都是默认存在--toppic:__consumer_offsetsL中

8、每一个consumer都有对应的group,一个组中可以是一个用户,也可以是多个用户。

group内是queue消费模型

各个consumer消费不同的partition,因此一个消息在group内只消费一次,这样能保证消费数据不重复

group间是publish-subscribe消费模型

各个group各自独立消费,互不影响,因此一个消息在被每个group消费一次

相关推荐
阿 才9 分钟前
跟文件系统(busybox)的构建
大数据·hadoop·分布式
老纪1 小时前
Redis分布式锁进第九零篇
数据库·redis·分布式
Amy187021118231 小时前
分布式光伏防孤岛保护:技术逻辑、标准演进与工程实践全解析
分布式
ACP广源盛139246256732 小时前
IX7008 PCIe 交换芯片@ACP#RTX Spark 经济型 8 口扩展芯片(对比 ASM1806)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
ACP广源盛139246256732 小时前
IX6012 PCIe 交换芯片@ACP#RTX Spark 入门级 12 口存储外设扩展方案(对比 ASM1812)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
开开心心就好4 小时前
解决截图被拦截黑屏问题的免费小工具
安全·智能手机·flink·kafka·pdf·音视频·1024程序员节
分布式存储与RustFS4 小时前
对标MinIO!RustFS新一代AI分布式对象存储开源能力前瞻
人工智能·分布式·开源·分布式对象存储·rustfs·minio平替·s3 table
cxr8286 小时前
蜂群智能系统中“非必要不添加“原则的有效性再审视:基于分布式决策与通信复杂度的理论推导
人工智能·分布式·智能体
bIo7lyA8v6 小时前
算法工程中的可扩展性与分布式实现方案的技术8
分布式
我登哥MVP6 小时前
SpringCloud 核心组件解析:分布式配置管理
java·spring boot·分布式·spring·spring cloud·java-ee·maven