Kafka四部曲之一:Kafka的核心概念

文章目录

核心概念

Kafka是一个事件流平台, 结合了三大关键功能:

  • 发布(写入)和订阅(读取)事件流,包括从其他系统持续导入/导出数据。
  • 持久可靠地存储事件流,存储时间长短随您所需。
  • 对正在发生的事件流进行处理,或进行回顾性处理。

并且所有这些功能都以分布式、高度可扩展、弹性、容错和安全的方式提供。

事件流是指:

  • 从数据库、传感器、移动设备、云服务和软件应用程序等事件源实时捕获数据,并将这些数据以事件流的形式存储起来;
  • 将这些事件流持久化存储以便后续检索;
  • 实时以及回顾性地操作、处理和响应这些事件流;

并根据需要将事件流路由到不同的目标技术。因此,事件流能够确保数据的持续流动和解读,从而保证在正确的时间将正确的信息传递到正确的位置。

部署交互架构

Kafka由服务器和客户端组成,并通过TCP网络协议进行通信:

  • 服务端:Kafka 以集群形式运行,集群由一个或多个服务器组成。其中一些服务器构成存储层,称为Broker;其他服务器运行Kafka Connect,以事件流的形式持续导入和导出数据,从而将 Kafka 与您现有的系统(例如关系数据库)以及其他 Kafka 集群集成。
  • 客户端:它们允许您编写分布式应用程序和微服务,以并行、大规模且容错的方式读取、写入和处理事件流,即使在网络问题或机器故障的情况下也能正常运行。

数据逻辑模型

  • 事件:事件记录了世界上或您的业务中"发生了某些事情"这一事实(也被称为记录或消息)。当您向 Kafka 读取或写入数据时,您是以事件的形式进行的。从概念上讲,事件包含键、值、时间戳和可选的元数据标头。
  • 生产者:生产者是向 Kafka 发布(写入)事件的客户端应用程序。
  • 消费者:消费者则是订阅(读取和处理)这些事件的应用程序。
  • 主题:事件被组织并持久存储在主题中。简单来说,主题类似于文件系统中的文件夹,而事件则是该文件夹中的文件。Kafka 中的主题始终是多生产者和多订阅者的:一个主题可以有零个、一个或多个生产者向其写入事件,也可以有零个、一个或多个消费者订阅这些事件。主题中的事件可以根据需要多次读取,并且事件在被使用后不会被删除,相反,您可以通过每个主题的配置设置来定义 Kafka 应该保留事件的时间,之后旧事件将被丢弃。Kafka 的性能与数据大小几乎无关,因此长时间存储数据完全没有问题。
  • 分区:主题是分区的,这意味着一个主题分布在位于不同 Kafka Broker上的多个"存储桶"中。这种分布式数据放置对于可扩展性至关重要,因为它允许客户端应用程序同时从多个Broker读取和写入数据。当一个新事件发布到主题时,它实际上会被追加到该主题的某个分区中。具有相同事件键(类似标签的概念)的事件会被写入同一个分区,Kafka保证给定主题分区的任何消费者始终会按照写入顺序读取该分区中的事件。

为了确保数据的容错性和高可用性,每个主题都可以进行复制,即使跨越不同的地理区域或数据中心,这样就能保证始终有多个代理服务器拥有数据副本,以应对可能出现的故障、代理服务器维护等情况。常见的生产环境配置是复制因子为 3,也就是说,始终会有三个数据副本。这种复制是在主题分区级别执行的。

相关推荐
胡耀超23 分钟前
《设计数据密集型应用》(DDIA, 2nd ed.) 心智模型导览——《Designing Data-Intensive Applications》书介绍导航
大数据·数据库·分布式·ai·架构·数据
shuair3 小时前
redis分布式锁
数据库·redis·分布式
song5013 小时前
昇腾 910 的硬件架构:为什么它适合跑大模型
图像处理·人工智能·分布式·flutter·硬件架构·交互
会编程的土豆3 小时前
Kafka 操作流程(零基础完整流程)
分布式·kafka
未若君雅裁4 小时前
分布式接口幂等性设计:唯一索引、Token 与分布式锁
分布式·微服务
还在忙碌的吴小二4 小时前
TLog 分布式日志追踪新手入门指南
分布式
轻刀快马4 小时前
从底层 CPU 架构看透现代分布式与并发编程
分布式·架构·cpu
晚烛4 小时前
CANN 分布式通信与 HCCL:多 NPU 协作的底层机制
开发语言·人工智能·分布式·python·深度学习
岳麓丹枫0014 小时前
PostgreSQL 15.7 CDC → Flink → Kafka 操作笔记
postgresql·flink·kafka
青云计划4 小时前
分布式单飞锁
分布式