【保姆级教程】使用SeaTunnel同步Kafka的数据到ClickHouse

1.Apache SeaTunnel依赖地址

2.SeaTunnel官网的Source/Sink模板

3.SeaTunnel的GitHub地址

在官网下载安装包之后,(注意:别下载apache-seatunnel-incubating-2.1.0-bin.tar.gz版本,依赖和功能都没有。)要使用apache-seatunnel-2.3.3-bin.tar.gz,但还需要配置环境和jar包,jar包需要联网。

从2.2.0-beta开始,二进制包默认不提供Connectors的依赖,因此在第一次使用它时,需要执行以下命令来安装连接器。当然,您也可以从Apache Maven Repository\[https://repo.maven.apache.org/maven2/org/apache/seatunnel/\]手动下载连接器,然后移动到Connectors/SeaTunnel目录)

java 复制代码
sh bin/install-plugin.sh

如果需要指定connector的版本,以2.3.3版本为例,需要执行

java 复制代码
sh bin/install-plugin.sh 2.3.3

也可以手动导入依赖

1.这个目录下放连接器

java 复制代码
apache-seatunnel-2.3.3/connectors/seatunnel

2.这个目录下放MySQL和clickhouse连接驱动和SeaTunnel的Source包

java 复制代码
/usr/local/mysql/module/seatunnel/apache-seatunnel-2.3.3/lib

3.这个目录下放配置文件

java 复制代码
/usr/local/mysql/module/seatunnel/apache-seatunnel-2.3.3/config

注意这里有一个seatunnel-env.sh文件,是配置Flink或者Spark环境变量的文件需要配置

执行命令

注意这里bin目录下的启动脚本选择,启动先最好先看一下flink -v、环境变量文件seatunnel-env.sh的配置、脚本选择(Flink版本不同,启动脚本不同),确保Flink的jobmanneantaskman都启动,然后再执行任务.

example08.conf配置文件中

复制代码
env {
        execution.parallelism = 1
        job.mode = "STREAMING"
        checkpoint.interval = 2000
}
这里使用flink一定要是STREAMING,不能是BATCH

具体配置格式参考上面的第2点------SeaTunnel官网的Source/Sink模板,最后注意执行任务可能需要几十分钟,但数据一定要等任务运行完毕后才能过去。

' 附件是Apache SeaTunnel2.3.3版本的完整目录,包含MySQL、clickhouse的连接驱动和配置文件,包括seatunnel-env.sh环境变量文件,根据数据同步链路和服务器参数改动 。

附件2是配置文件,从MySQL到ClickHouse,从MySQL到Kafka,从Kafka到ClickHouse。

执行一次命令同步一次。在数据同步过程中,确保目标表和源表都存在,并且源表内有数据是非常重要的,这样才能够在执行同步命令后在目标表中看到同步效果

复制代码
java
[root@172-xx-xxx-x bin]# ./start-seatunnel-flink-15-connector-v2.sh --config ../config/example07.conf 

SeaTunnel配置中的env {j:ob.mode = "STREAMING"}的STREAMINGBATCH的区别

本文由 白鲸开源科技 提供发布支持!

相关推荐
RUZHUA18 分钟前
六年深耕,稳定币重塑支付未来:从Libra震荡到全球贸易革新
大数据
wenzhangli725 分钟前
如何评价钉钉AI1.1新品发布会?垂直战略背后的内耗与垄断隐忧
大数据·人工智能
物流可信数据空间35 分钟前
可信数据空间提供新机遇,农业数字发展带来新希望
大数据
virtual_k1smet1 小时前
梧桐·鸿鹄-大数据professional
大数据·笔记
武子康1 小时前
Java-213 RocketMQ(MetaQ)演进与核心架构:NameServer/Broker/Producer/Consumer 工作机制
大数据·分布式·架构·消息队列·系统架构·rocketmq·java-rocketmq
一只专注api接口开发的技术猿1 小时前
智能决策数据源:利用 1688 商品详情 API 构建实时比价与供应链分析系统
大数据·前端·数据库
CES_Asia2 小时前
2026科技热点预言:CES Asia“具身智能”展区已成产业风向标
大数据·人工智能·科技·机器人
风跟我说过她2 小时前
HBase完全分布式部署详细教程(含HA高可用版+普通非HA版)
大数据·数据库·分布式·centos·hbase
神算大模型APi--天枢6462 小时前
合规落地加速期,大模型后端开发与部署的实战指南
大数据·前端·人工智能·架构·硬件架构
BlockWay2 小时前
WEEX唯客:市场波动加剧背景下,用户为何更关注平台的稳定性与安全性
大数据·人工智能·安全