Apache SeaTunnel 自定义连接器适配华为大数据平台集成组件ClickHouse

技术背景

Apache SeaTunnel 作为一款开源的数据集成框架,支持多种数源的集成。根据我司的业务场景,需要将每日的流水数据从MySQL按日期归档到ClickHouse中。

用户可以通过ClickHouse实现在线分析处理查询(OLAP)和分析数据报告生成。通过Apache SeaTunnel实现每日增量流水数据从MySQL归档到ClickHouse

由于使用华为增强的ClickHouse版本,目前开源中的ClickHouse连接器无法直接使用,且需要经过Kerberos认证。

同时华为增强的ClickHouse版本是基于ELB(Elastic Load Balance)的HA部署架构,需要通过Https协议访问高可用的ELB节点。

支持华为增强的ClickHouse版本

基于通用性的考虑,采用增强Connector-JDBC的方式,使该连接器兼容华为增强的ClickHouse版本的JDBC连接方式。

目前Connector-JDBC模块支持了多种SQL方言,如MySQL,GBASE,DB2等。

Connector-JDBC模块使用自动服务加载器(ServiceLoader)实现方言组件的自动加载(目前大部分开源组件都会使用类似机制以提高程序的可扩展性)。

在Connector-JDBC模块增加对华为增强的ClickHouse版本支持分为如下步骤:

增加ClickHouse方言配置

1)ClickhouseDialect:定义方言名称等信息

2)ClickhouseFactory: ClickHouse方言定义工厂。

Source或者Sink组件启动时会根据URL开头匹配到实际的方言工厂类,并进行加载。

3)ClickHouseJdbcRowConverter:行转换器

4)ClickHouseTypeMapper:类型转换器

由于Apache SeaTunnel自定义了通用数据类型SeaTunnelRow,所有其他的数据类型都需要转化成SeaTunnel自身的数据类型。

例如: 将ClickHouse中的UINT16对应到LONG类型:

跟踪源码,Source在初始化时会进行转化操作。

新增华为ClickHouse的JDBC连接工具类。

该类参考华为官方给的ClickHouse示例代码。

扩展SimpleJdbcConnectionProvider,以支持ClickHouse的JDBC连接。

测试连接器

配置SeaTunnel脚本:使用Example模块进行单元测试

其中Source配置的是MYSQL的数据源

Sink配置ClickHouse的数据源

  • driver:clickhouse

  • url:jdbc:ch//IP:PORT,IP是ELB的IP,PORT是HTTPS的端口

  • user: kerberos认证用户

  • password: kerberos认证用户密码

运行成功,查看结果:

本文由 白鲸开源科技 提供发布支持!

相关推荐
Elastic 中国社区官方博客1 小时前
在不到 5 分钟的时间内将威胁情报 PDF 添加为 AI 助手的自定义知识
大数据·人工智能·安全·elasticsearch·搜索引擎·pdf·全文检索
玉成2261 小时前
Elasticsearch:索引mapping
大数据·elasticsearch·搜索引擎
运维&陈同学1 小时前
【Logstash01】企业级日志分析系统ELK之Logstash 安装与介绍
大数据·linux·elk·elasticsearch·云原生·自动化·logstash
菠萝派爱跨境5 小时前
利用轮换IP的强大功能
大数据·服务器·网络·网络协议·tcp/ip·ip
司晓杰5 小时前
使用 Flink CDC 构建 Streaming ETL
大数据·数据仓库·flink·etl
申尧强5 小时前
flink异步流(async stream)解析
大数据·flink
core5125 小时前
flink cdc oceanbase(binlog模式)
大数据·flink·binlog·oceanbase·安装·cdc
申尧强5 小时前
flink state源码解析
大数据·flink
GIS数据转换器7 小时前
城市安全风险综合监测预警平台
大数据·人工智能·安全·3d·智慧城市
罗仲虎7 小时前
CDP集群安全指南-动态数据加密
大数据·运维·安全·cloudera