【学习笔记】kafka权威指南——第7章 构建数据管道(7-10章只做了解)

第7章 构建数据管道

7.1 构建数据管道时需要考虑的问题

7.1.1 及时性

可以实时处理,也可以每天某时间大量处理,kafka作为数据的大型缓冲区

7.1.2 可靠性

7.1.3 高吞吐量和动态吞吐量

kafka高吞吐量,且作为中间缓存积压数据节点

7.1.4 数据格式

7.1.5 转换

数据转换可在数据管道做(ETL),也可在目标系统做(ELT)

7.1.6 安全性

kafka支持加密与认证

7.1.7故障处理能力

kafka缓冲区数据可保存一段时间,可在时间内重新处理出错数据

7.1.8 耦合性和灵活性(P105)

处理不同数据源同一个数据管道,生产与消费耦合,尽量保留数据完整性

7.2 如何在Connect API和客户端API之间做出选择

一般需与数据库交互时使用ConnectAPI

7.3 kafka Connect

7.3.1 运行Connect(P106)

7.3.2 略

7.3.4 深入理解Connect

1>连接器和任务

连接器:决定运行多少个任务,拆分数据复制,传递任务配置

任务:将数据移入溢出kafka

2>worker进程

处理HTTP请求,主要负责RESTAPI,配置,可靠性,高可用性、伸缩性和负载均衡

3>转化器和Connect的数据模型

连接器将库中数据变为DataAPI数据,转化器负责DataAPI与kafka中数据的转化

4>偏移量管理

会保存数据源与目标源的偏移量

7.4 Connect之外的选择(P116)

相关推荐
q***71851 小时前
【golang学习之旅】使用VScode安装配置Go开发环境
vscode·学习·golang
AA陈超5 小时前
UE5笔记:GetWorld()->SpawnActorDeferred()
c++·笔记·学习·ue5·虚幻引擎
生椰拿铁You6 小时前
openxlpy学习笔记
笔记·学习
AA陈超6 小时前
ASC学习笔记0025:移除所有属性集
c++·笔记·学习·ue5·虚幻引擎
QT 小鲜肉7 小时前
【Linux常用命令大全】在 Linux 系统下 Git + Vim编辑器常用指令完全指南(亲测有效)
linux·开发语言·c++·笔记·git·编辑器·vim
芭比萌妹8 小时前
apisix的kafka-logger设置日志格式log_format,不支持单个路由设置
分布式·kafka
p666666666810 小时前
【☀Linux驱动开发笔记☀】新字符设备驱动开发_02
linux·嵌入式硬件·学习
笨鸟笃行10 小时前
百日挑战——单词篇(第二十四天)
学习
惜.己10 小时前
html笔记(一)
前端·笔记·html
烤麻辣烫11 小时前
23种设计模式(新手)-7迪米特原则 合成复用原则
java·开发语言·学习·设计模式·intellij-idea