【学习笔记】kafka权威指南——第7章构建数据管道（7-10章只做了解）

不太可爱的叶某人2025-10-07 20:52

第7章构建数据管道

7.1 构建数据管道时需要考虑的问题

7.1.1 及时性

可以实时处理，也可以每天某时间大量处理，kafka作为数据的大型缓冲区

7.1.2 可靠性

略

7.1.3 高吞吐量和动态吞吐量

kafka高吞吐量，且作为中间缓存积压数据节点

7.1.4 数据格式

7.1.5 转换

数据转换可在数据管道做（ETL），也可在目标系统做（ELT）

7.1.6 安全性

kafka支持加密与认证

7.1.7故障处理能力

kafka缓冲区数据可保存一段时间，可在时间内重新处理出错数据

7.1.8 耦合性和灵活性（P105）

处理不同数据源同一个数据管道，生产与消费耦合，尽量保留数据完整性

7.2 如何在Connect API和客户端API之间做出选择

一般需与数据库交互时使用ConnectAPI

7.3 kafka Connect

7.3.1 运行Connect（P106）

7.3.2 略

7.3.4 深入理解Connect

1>连接器和任务

连接器：决定运行多少个任务，拆分数据复制，传递任务配置

任务：将数据移入溢出kafka

2>worker进程

处理HTTP请求，主要负责RESTAPI，配置，可靠性，高可用性、伸缩性和负载均衡

3>转化器和Connect的数据模型

连接器将库中数据变为DataAPI数据，转化器负责DataAPI与kafka中数据的转化

4>偏移量管理

会保存数据源与目标源的偏移量

【学习笔记】kafka权威指南——第7章 构建数据管道（7-10章只做了解）

第7章 构建数据管道