【kafka_02】kafka中的基本概念

本文主要有以下内容:

  • kafka 基本架构
  • kafka 基本概念

kafka安装方式:

  • windows参考此文
  • mac或者linux参考这里。需要配合docker 和 docker compose共同使用。

kafka基本架构

kafka的三种术语:

  • 生产者:负责将消息发送给kafka服务器。只要能够将消息发到kafka服务器即可。
  • 消费者:负责从kafka服务器拉取消息进行消费。只要能够从服务器端拉取消息即可。
  • broker:一个kafka实例,即kafka broker,也可称之为kafka服务器。负责存储生产者发送的消息,负责给消费者提供消息消费。kafka通过zookeeper进行消息的管理。broker之间可以形成broker集群,具体关系如下图所示:

消息管理

kafka通过JavaProducerRecord完成了对消息的封装,在发送消息时,需要使用到此类。将消息发送到服务端之后,kafka服务器(kafka进程)需要对发送的消息进行管理,就引出了主题和主题分区这两个术语。

主题:一类消息的集合,如上学时老师布置作业时,不管是语文作业还是数学作业都在作业这一大类里面。是一个逻辑概念

主题分区:主题分区【简称:分区】是消息具体存储的地方。是对主题消息的进一步划分,同一个主题的不同分区存储消息的是不一样。一条消息发送到broker之前,会根据分区规则进行分区选择,从而确定发送到某一个分区上。同一主题的分区可以横跨多个broker

副本机制:kafka为分区引入了副本机制,通过增加副本数量可以提升容灾能力。同一分区的不同副本保存的是相同的信息(同一时刻不一定相同),副本之间一主多从主副本 负责和生产者消费者进行读写 ,从副本负责和主副本之间进行数据同步,即负责从主副本之间拉取数据进行同步。一个分区的副本在集群模式下也不会只存在于一个broker上。否则这个broker挂掉之后,将导致此分区不可用!

假定一个kafka集群由四个broker实例组成,一个主题有三个分区,每一个分区有三个副本,则可能的主题存储方式如下:

分区中所有的副本称之为AR (Assigned Replicas),副本可以分为两部分,一部分是能够与主副本之间保持同步的、另一部分是没有和主副本保持同步的。保持同步的称之为ISR(In Sync Replicas) 这一部分包含leader副本,没有保持同步的称之为(OSR:Out Sync Replicas)此部分不包含leader副本。一个kafka分区副本对应一个log对象,为了避免一个log文件过大,将一个log对象分为多个Log Segment

高水位:标识一个信息的偏移量,消费者只能消费这个位置之前的消息。

LEO:Log End Offset,是下一条日志要写入的位置。图示如下

在kafka集群中,高水位通常由ISR中的最小的LEO确定。如下图所示:

参考资料:

相关推荐
ELI_He9996 小时前
hyperf auth模块
后端·php
VX:Fegn08957 小时前
计算机毕业设计|基于springboot + vue图书管理系统(源码+数据库+文档)
数据库·vue.js·spring boot·后端·课程设计
cike_y8 小时前
Spring的配置&各种依赖注入
java·开发语言·后端·spring
椰果子8 小时前
Nacos 2.x.x版本不适用JDK17的处理方式
java·spring boot·后端
上进小菜猪9 小时前
基于 YOLOv8 的共享单车乱停放智能识别系统— 从数据集构建到可视化部署的完整项目
后端
爱敲代码的小黄9 小时前
阿里人的 2025 年终总结:买房、晋升、订婚、投资,遇见更清晰的自己
后端·面试·架构
2501_9216494910 小时前
如何获取外汇实时数据:全球货币行情对接指南
后端·python·websocket·金融·区块链
卷福同学11 小时前
2025年终总结:再次选择、沪漂、第一次演讲、相亲无果
后端·程序员·github
韩师傅11 小时前
从随叫随到到规范配送:现代物流系统与 REST API 的登场
后端·python·全栈
踏浪无痕11 小时前
RocketMQ 为什么读得这么快?揭秘 ConsumeQueue 的异步索引设计
后端·面试·rocketmq