Apache SeaTunnel On SparkEngine 集成CDP

随着数据处理需求的日益增长,选择一个高效、灵活的数据处理工具变得尤为关键。SeaTunnel,作为一个开源的数据集成工具,不仅支持多种数据处理引擎,还提供了丰富的连接器和灵活的数据同步方案。

本文将详细介绍 SeaTunnel 的优势和部署流程,帮助开发者和数据科学家快速上手,提升数据处理的效率和灵活性。

一、SeaTunnel优势

1、丰富且可扩展的连接器

2、连接器插件

3、流批集成,支持实时数据同步也支持离线数据同步

4、JDBC多路复用

5、多引擎支持。 支持SeaTunnel原生引擎、Spark引擎、Flink引擎。

6、高吞吐量和低延迟

7、完善的实时监控

8、支持两种作业开发方法:编码和画布设计。

二、SeaTunnel部署:

复制代码
export version="2.3.5"
wget "https://archive.apache.org/dist/seatunnel/${version}/apache-seatunnel-${version}-bin.tar.gz"
tar -xzvf "apache-seatunnel-${version}-bin.tar.gz"

安装插件

复制代码
sh bin/install-plugin.sh

部署后的目录结构:

三、对接Spark引擎

修改config目录的seatunnel-env.sh文件的SPARK_HOME配置,指向Spark的Home目录。

四、配置SeaTunnel任务

创建 config/v2.mysql.config 任务配置文件。

读取127.0.0.1数据库的lhotsetest.lb\_task\_run表,并通过控制台输出。

复制代码
env {
  parallelism = 1
  job.mode = "BATCH"
}
source {
    Jdbc {
        url = "jdbc:mysql://127.0.0.1:3306/lhotsetest?serverTimezone=GMT%2b8"
        driver = "com.mysql.cj.jdbc.Driver"
        connection_check_timeout_sec = 100
        user = ""
        password = ""
        table_path = "lhotsetest.lb_task_run"
        query = "select * from lhotsetest.lb_task_run"
        split.size = 10000
    }
}

sink {
  Console {}
}

五、SeaTunnel集成CDP,基于Yarn进行任务资源管理:

通过Spark On Yarn的方式进行提交。

(1)进行keytab认证 --keytab /dir1/dir2/user.keytab --principal user@COM

(2)通过yarn集群模式进行提交 --master yarn --deploy-mode cluster

(3)指定任务配置文件 --config ./config/v2.mysql.config

复制代码
./bin/start-seatunnel-spark-2-connector-v2.sh --keytab /dir1/dir2/user.keytab --principal user@COM --master yarn --deploy-mode cluster --config ./config/v2.mysql.config

提交后任务在大数据平台可以看到任务的状态:

任务执行完毕后,可查询任务执行详情和日志:

通过本文的介绍,相信您已对 SeaTunnel 有了深入的了解。从优化的连接器到强大的引擎支持,SeaTunnel 为数据处理提供了广泛而高效的解决方案。

无论您是在寻找实时数据同步工具,还是需要一个可靠的数据集成平台,SeaTunnel 都能满足您的需求。现在就开始您的 SeaTunnel 之旅,解锁数据处理的新可能!

本文由 白鲸开源科技 提供发布支持!

相关推荐
沃达德软件5 小时前
智慧警务图像融合大数据
大数据·图像处理·人工智能·目标检测·计算机视觉·目标跟踪
陈奕昆8 小时前
n8n实战营Day3:电商订单全流程自动化·需求分析与流程拆解
大数据·开发语言·人工智能·自动化·需求分析·n8n
semantist@语校8 小时前
第五十一篇|构建日本语言学校数据模型:埼玉国际学院的城市结构与行为变量分析
java·大数据·数据库·人工智能·百度·ai·github
赵渝强老师8 小时前
【赵渝强老师】阿里云大数据集成开发平台DataWorks
大数据·阿里云·云计算
xieyan08118 小时前
卖出与止损策略
大数据
Elastic 中国社区官方博客9 小时前
使用 LangChain 和 Elasticsearch 开发一个 agentic RAG 助手
大数据·人工智能·elasticsearch·搜索引擎·ai·langchain·全文检索
z***02609 小时前
Python大数据可视化:基于大数据技术的共享单车数据分析与辅助管理系统_flask+hadoop+spider
大数据·python·信息可视化
知识分享小能手9 小时前
openEuler入门学习教程,从入门到精通,openEuler 24.03 环境下 Hadoop 全面实践指南(19)
大数据·hadoop·openeuler
艾莉丝努力练剑9 小时前
时光织网:基于Rokid AI眼镜的家庭智能协同中枢设计与实现
大数据·人工智能·kotlin·rokid
jiayong2310 小时前
Elasticsearch 完全指南:原理、优势与应用场景
大数据·elasticsearch·搜索引擎