kafka初识 之 Topic、Partition、生产者、消费者、Broker、Cluster概念分析

kafka消息队列有两种消费模式,分别是点对点模式和订阅/发布模式。具体比较可以参考Kafka基础--消息队列与消费模式。

1. 主题(Topic)与分区(Partition)

  • Topic:消息主题,是消息的逻辑分类,具体分类的方式就是用Topic进行区分,不同类别的消息具有不同的Topic。
  • 每条消息属于且仅属于一个Topic
  • Producer发布数据时,必须指定将该消息发布到哪个Topic
  • Consumer消费消息时,也必须指定消费哪个Topic的信息
  • partition:主题内分区,是物理分类。每一个主题都对应一个「消息队列」,一个 Topic 对应多个 Partition。

partition的目的是:通过多分区实现负载均衡的效果,提高kafka访问吞吐率。

  • 写入数据的规则
  • kafka默认轮询规则
  • producer指定partition key写入特定的partition
  • producer自定义规则

2. 生产者(Producer)与消费者(Consumer)

生产者(也称为发布者)创建消息,而消费者(也称为订阅者)负责消费or读取消息。

3. Broker 和集群(Cluster)

  • 一个 Kafka 服务器也称为 Broker,它接受生产者发送的消息并存入磁盘;Broker 同时服务消费者拉取分区消息的请求,返回目前已经提交的消息。
  • 若干个 Broker 组成一个集群(Cluster),其中集群内某个 Broker 会成为集群控制器(Cluster Controller),它负责管理集群,包括分配分区到 Broker、监控 Broker 故障等。在集群内,一个分区由一个 Broker 负责,这个 Broker 也称为这个分区的 Leader

4. 关于 kafka 一点认知

  • Kafka 的消息是存在于文件系统之上
  • Topic 其实是逻辑上的概念,面相消费者和生产者,物理上存储的其实是 Partition,每一个 Partition 最终对应一个目录,里面存储所有的消息和索引文件。默认情况下,每一个 Topic 在创建时如果不指定 Partition 数量时只会创建 1 个 Partition。比如,创建了一个 Topic 名字为 test ,没有指定 Partition 的数量,那么会默认创建一个 test-0 的文件夹,这里的命名规则是:<topic_name>-<partition_id>。

  • kafka 如何保证可靠性?
    • 对于一个分区来说,它的消息是有序的。如果一个生产者向一个分区先写入消息A,然后写入消息B,那么消费者会先读取消息A再读取消息B。
    • 当消息写入所有in-sync状态的副本后,消息才会认为已提交(committed)。这里的写入有可能只是写入到文件系统的缓存,不一定刷新到磁盘。生产者可以等待不同时机的确认,比如等待分区主副本写入即返回,后者等待所有in-sync状态副本写入才返回。
    • 一旦消息已提交,那么只要有一个副本存活,数据不会丢失。
    • 消费者只能读取到已提交的消息。
相关推荐
凌乱的豆包16 小时前
Spring Cloud Alibaba Nacos 服务注册发现和分布式配置中心
分布式
独隅18 小时前
PyTorch 分布式训练完整指南:策略、实现与模型选型
人工智能·pytorch·分布式
架构师老Y19 小时前
011、消息队列应用:RabbitMQ、Kafka与Celery
python·架构·kafka·rabbitmq·ruby
墨北小七21 小时前
小说大模型的分布式训练——张量并行架构设计与实现
分布式
豆豆1 天前
政务服务平台站群一体化解决方案
大数据·分布式·微服务·cms·政务·网站管理系统·站群cms
昵称暂无11 天前
分布式事务难题:Seata框架在微服务中的落地实践
分布式·微服务·架构
都说名字长不会被发现1 天前
分布式场景下的数据竞争问题与解决方案
分布式·乐观锁·悲观锁·redission·redis 分布式锁·数据版本
甘露s1 天前
分布式与可重入性的一些问题
分布式
juniperhan1 天前
Flink 系列第 3 篇:核心概念精讲|分布式缓存 + 重启策略 + 并行度 底层原理 + 代码实战 + 生产规范
大数据·分布式·缓存·flink
想你依然心痛1 天前
HarmonyOS 5.0 IoT开发实战:构建分布式智能设备控制中枢与边缘计算网关
分布式·物联网·harmonyos