Kafka四部曲之一:Kafka的核心概念

文章目录

核心概念

Kafka是一个事件流平台, 结合了三大关键功能:

  • 发布(写入)和订阅(读取)事件流,包括从其他系统持续导入/导出数据。
  • 持久可靠地存储事件流,存储时间长短随您所需。
  • 对正在发生的事件流进行处理,或进行回顾性处理。

并且所有这些功能都以分布式、高度可扩展、弹性、容错和安全的方式提供。

事件流是指:

  • 从数据库、传感器、移动设备、云服务和软件应用程序等事件源实时捕获数据,并将这些数据以事件流的形式存储起来;
  • 将这些事件流持久化存储以便后续检索;
  • 实时以及回顾性地操作、处理和响应这些事件流;

并根据需要将事件流路由到不同的目标技术。因此,事件流能够确保数据的持续流动和解读,从而保证在正确的时间将正确的信息传递到正确的位置。

部署交互架构

Kafka由服务器和客户端组成,并通过TCP网络协议进行通信:

  • 服务端:Kafka 以集群形式运行,集群由一个或多个服务器组成。其中一些服务器构成存储层,称为Broker;其他服务器运行Kafka Connect,以事件流的形式持续导入和导出数据,从而将 Kafka 与您现有的系统(例如关系数据库)以及其他 Kafka 集群集成。
  • 客户端:它们允许您编写分布式应用程序和微服务,以并行、大规模且容错的方式读取、写入和处理事件流,即使在网络问题或机器故障的情况下也能正常运行。

数据逻辑模型

  • 事件:事件记录了世界上或您的业务中"发生了某些事情"这一事实(也被称为记录或消息)。当您向 Kafka 读取或写入数据时,您是以事件的形式进行的。从概念上讲,事件包含键、值、时间戳和可选的元数据标头。
  • 生产者:生产者是向 Kafka 发布(写入)事件的客户端应用程序。
  • 消费者:消费者则是订阅(读取和处理)这些事件的应用程序。
  • 主题:事件被组织并持久存储在主题中。简单来说,主题类似于文件系统中的文件夹,而事件则是该文件夹中的文件。Kafka 中的主题始终是多生产者和多订阅者的:一个主题可以有零个、一个或多个生产者向其写入事件,也可以有零个、一个或多个消费者订阅这些事件。主题中的事件可以根据需要多次读取,并且事件在被使用后不会被删除,相反,您可以通过每个主题的配置设置来定义 Kafka 应该保留事件的时间,之后旧事件将被丢弃。Kafka 的性能与数据大小几乎无关,因此长时间存储数据完全没有问题。
  • 分区:主题是分区的,这意味着一个主题分布在位于不同 Kafka Broker上的多个"存储桶"中。这种分布式数据放置对于可扩展性至关重要,因为它允许客户端应用程序同时从多个Broker读取和写入数据。当一个新事件发布到主题时,它实际上会被追加到该主题的某个分区中。具有相同事件键(类似标签的概念)的事件会被写入同一个分区,Kafka保证给定主题分区的任何消费者始终会按照写入顺序读取该分区中的事件。

为了确保数据的容错性和高可用性,每个主题都可以进行复制,即使跨越不同的地理区域或数据中心,这样就能保证始终有多个代理服务器拥有数据副本,以应对可能出现的故障、代理服务器维护等情况。常见的生产环境配置是复制因子为 3,也就是说,始终会有三个数据副本。这种复制是在主题分区级别执行的。

相关推荐
DemonAvenger3 天前
Kafka性能调优:从参数配置到硬件选择的全方位指南
性能优化·kafka·消息队列
初次攀爬者3 天前
ZooKeeper 实现分布式锁的两种方式
分布式·后端·zookeeper
yumgpkpm4 天前
AI视频生成:Wan 2.2(阿里通义万相)在华为昇腾下的部署?
人工智能·hadoop·elasticsearch·zookeeper·flink·kafka·cloudera
予枫的编程笔记4 天前
【Kafka高级篇】避开Kafka原生重试坑,Java业务端自建DLQ体系,让消息不丢失、不积压
java·kafka·死信队列·消息中间件·消息重试·dlq·java业务开发
倚肆4 天前
在 Windows Docker 中安装 Kafka 并映射 Windows 端口
docker·kafka
断手当码农4 天前
Redis 实现分布式锁的三种方式
数据库·redis·分布式
Sheffield4 天前
如果把ZooKeeper按字面意思比作动物园管理员……
elasticsearch·zookeeper·kafka
初次攀爬者4 天前
Redis分布式锁实现的三种方式-基于setnx,lua脚本和Redisson
redis·分布式·后端
雪碧聊技术4 天前
kafka的下载、安装、启动
kafka