第7章 构建数据管道
7.1 构建数据管道时需要考虑的问题
7.1.1 及时性
可以实时处理,也可以每天某时间大量处理,kafka作为数据的大型缓冲区
7.1.2 可靠性
略
7.1.3 高吞吐量和动态吞吐量
kafka高吞吐量,且作为中间缓存积压数据节点
7.1.4 数据格式
7.1.5 转换
数据转换可在数据管道做(ETL),也可在目标系统做(ELT)
7.1.6 安全性
kafka支持加密与认证
7.1.7故障处理能力
kafka缓冲区数据可保存一段时间,可在时间内重新处理出错数据
7.1.8 耦合性和灵活性(P105)
处理不同数据源同一个数据管道,生产与消费耦合,尽量保留数据完整性
7.2 如何在Connect API和客户端API之间做出选择
一般需与数据库交互时使用ConnectAPI
7.3 kafka Connect
7.3.1 运行Connect(P106)
7.3.2 略
7.3.4 深入理解Connect
1>连接器和任务
连接器:决定运行多少个任务,拆分数据复制,传递任务配置
任务:将数据移入溢出kafka
2>worker进程
处理HTTP请求,主要负责RESTAPI,配置,可靠性,高可用性、伸缩性和负载均衡
3>转化器和Connect的数据模型
连接器将库中数据变为DataAPI数据,转化器负责DataAPI与kafka中数据的转化
4>偏移量管理
会保存数据源与目标源的偏移量