Kafka四部曲之一:Kafka的核心概念

文章目录

核心概念

Kafka是一个事件流平台, 结合了三大关键功能:

  • 发布(写入)和订阅(读取)事件流,包括从其他系统持续导入/导出数据。
  • 持久可靠地存储事件流,存储时间长短随您所需。
  • 对正在发生的事件流进行处理,或进行回顾性处理。

并且所有这些功能都以分布式、高度可扩展、弹性、容错和安全的方式提供。

事件流是指:

  • 从数据库、传感器、移动设备、云服务和软件应用程序等事件源实时捕获数据,并将这些数据以事件流的形式存储起来;
  • 将这些事件流持久化存储以便后续检索;
  • 实时以及回顾性地操作、处理和响应这些事件流;

并根据需要将事件流路由到不同的目标技术。因此,事件流能够确保数据的持续流动和解读,从而保证在正确的时间将正确的信息传递到正确的位置。

部署交互架构

Kafka由服务器和客户端组成,并通过TCP网络协议进行通信:

  • 服务端:Kafka 以集群形式运行,集群由一个或多个服务器组成。其中一些服务器构成存储层,称为Broker;其他服务器运行Kafka Connect,以事件流的形式持续导入和导出数据,从而将 Kafka 与您现有的系统(例如关系数据库)以及其他 Kafka 集群集成。
  • 客户端:它们允许您编写分布式应用程序和微服务,以并行、大规模且容错的方式读取、写入和处理事件流,即使在网络问题或机器故障的情况下也能正常运行。

数据逻辑模型

  • 事件:事件记录了世界上或您的业务中"发生了某些事情"这一事实(也被称为记录或消息)。当您向 Kafka 读取或写入数据时,您是以事件的形式进行的。从概念上讲,事件包含键、值、时间戳和可选的元数据标头。
  • 生产者:生产者是向 Kafka 发布(写入)事件的客户端应用程序。
  • 消费者:消费者则是订阅(读取和处理)这些事件的应用程序。
  • 主题:事件被组织并持久存储在主题中。简单来说,主题类似于文件系统中的文件夹,而事件则是该文件夹中的文件。Kafka 中的主题始终是多生产者和多订阅者的:一个主题可以有零个、一个或多个生产者向其写入事件,也可以有零个、一个或多个消费者订阅这些事件。主题中的事件可以根据需要多次读取,并且事件在被使用后不会被删除,相反,您可以通过每个主题的配置设置来定义 Kafka 应该保留事件的时间,之后旧事件将被丢弃。Kafka 的性能与数据大小几乎无关,因此长时间存储数据完全没有问题。
  • 分区:主题是分区的,这意味着一个主题分布在位于不同 Kafka Broker上的多个"存储桶"中。这种分布式数据放置对于可扩展性至关重要,因为它允许客户端应用程序同时从多个Broker读取和写入数据。当一个新事件发布到主题时,它实际上会被追加到该主题的某个分区中。具有相同事件键(类似标签的概念)的事件会被写入同一个分区,Kafka保证给定主题分区的任何消费者始终会按照写入顺序读取该分区中的事件。

为了确保数据的容错性和高可用性,每个主题都可以进行复制,即使跨越不同的地理区域或数据中心,这样就能保证始终有多个代理服务器拥有数据副本,以应对可能出现的故障、代理服务器维护等情况。常见的生产环境配置是复制因子为 3,也就是说,始终会有三个数据副本。这种复制是在主题分区级别执行的。

相关推荐
珠海西格5 小时前
“主动预防” vs “事后补救”:分布式光伏防逆流技术的代际革命,西格电力给出标准答案
大数据·运维·服务器·分布式·云计算·能源
AC赳赳老秦7 小时前
专利附图说明:DeepSeek生成的专业技术描述与权利要求书细化
大数据·人工智能·kafka·区块链·数据库开发·数据库架构·deepseek
小邓吖8 小时前
自己做了一个工具网站
前端·分布式·后端·中间件·架构·golang
曹天骄12 小时前
基于 Cloudflare Worker 构建分布式测速调度系统:KV 与 D1 数据层设计实战教程
分布式·缓存
Prince-Peng14 小时前
技术架构系列 - 详解Redis
数据结构·数据库·redis·分布式·缓存·中间件·架构
曹天骄16 小时前
基于 Cloudflare Worker + KV 构建高性能分布式测速调度系统(工程实战)
分布式
奋进的芋圆17 小时前
Spring Boot 3 高并发事务与分布式事务企业级完整解决方案
spring boot·分布式
没有bug.的程序员17 小时前
Spring Boot 与 Kafka:消息可靠性传输与幂等性设计的终极实战
java·spring boot·后端·kafka·幂等性·消息可靠
你才是臭弟弟17 小时前
Docker 拉取 Kafka 镜像及策略配置
docker·容器·kafka
淡泊if17 小时前
Kafka部署模式详解:从单机到分布式集群的核心选择
分布式·kafka