CDL数据传输工具

什么是CDL

CDL(全称Change Data Loader)是一个基于Kafka Connect框架的实时数据集成服务。 CDL服务能够从各种OLTP数据库中捕获数据库的Data Change事件,并推送到kafka,再由sink connector推送到大数据生态系统中。

CDL目前支持的数据源有MySQL、PostgreSQL、Oracle、Hudi、Kafka、ThirdParty-Kafka,目标端支持写入Kafka、Hudi、DWS以及ClickHouse。

CDL结构

CDL服务包含了两个重要的角色:CDLConnector 和 CDLService,CDLConnector是具体执行数据抓取任务的实例,包含了Source Connector 和 Sink Connector,CDLService是负责管理和创建任务的实例。

CDL服务中的CDLService是多主模式,任意一个CDLService都可以进行业务操作;CDLConnector是分布式模式,提供了高可靠和Rebalance的能力,创建任务时指定的task数量会在整个集群中的CDLConnector实例之间做均衡,保证每个实例上运行的task数量大致相同,如果某个CDLConnector实例异常或者节点宕机,该任务会在其它节点重新平衡task的数量。

图1Task的Rebalance示意图

相关推荐
m0_748237051 小时前
sql实战解析-sum()over(partition by xx order by xx)
数据库·sql
dal118网工任子仪2 小时前
61,【1】BUUCTF WEB BUU XSS COURSE 11
前端·数据库·xss
萌小丹Fighting3 小时前
【Postgres_Python】使用python脚本批量创建和导入多个PG数据库
数据库
青灯文案13 小时前
Oracle 数据库常见字段类型大全及详细解析
数据库·oracle
羊小猪~~3 小时前
MYSQL学习笔记(四):多表关系、多表查询(交叉连接、内连接、外连接、自连接)、七种JSONS、集合
数据库·笔记·后端·sql·学习·mysql·考研
黄名富6 小时前
Kafka 日志存储 — 日志索引
java·分布式·微服务·kafka
村口蹲点的阿三6 小时前
Spark SQL 中对 Map 类型的操作函数
javascript·数据库·hive·sql·spark
DM很小众6 小时前
Kafka 和 MQ 的区别
分布式·kafka
暮湫7 小时前
MySQL(1)概述
数据库·mysql
fajianchen7 小时前
记一次线上SQL死锁事故:如何避免死锁?
数据库·sql