Apache SeaTunnel 正式发布2.3.5版本,功能增强及多个Bug修复

经过两个月的筹备,我们在2.3.4版本基础上进行了新一轮的迭代,本次更新不仅修复了多个关键问题,还引入了若干重要功能增强和性能优化。

在此,我们先提前感谢社区成员的贡献和支持,如果你想升级最新的版本,快跟我们一起来看看这次更新的亮点吧!

Release Note:https://github.com/apache/seatunnel/releases/tag/2.3.5

下载地址:https://seatunnel.apache.org/download/

主要新功能

支持作业事件通知功能,在此基础上支持实时CDC数据数据延迟事件通知(https://github.com/apache/seatunnel/pull/6634) 用户可以自定义通知消息发送的目标端,这样一旦实时同步数据发延迟,用户就会收到消息。

文件类型的连接器,支持定义读取和写入时使用的字符编码,这在源端和目标端使用不同的字符编码时非常有用。

优化了Postgres CDC创建publication的逻辑,在这个优化之前,添加Postgres CDC的表时创建的publication的范围是ALL_TABLES,这会导致即使只同步少数的几张表也会创建一个针对所有表的发布,会造成PG WAL的无效增长。社区优化了publication的创建逻辑,只针对需要同步的表创建publication,这极大的减小了WAL增长的范围,提交了稳定性。

Zeta引擎支持设置任务的失败重试次数。之前Zeta引擎任务失败会自动重试3次,但有些场景下我们可能希望一但有错任务立即终止,由外部调度系统来进行重试。从2.3.5版本开始,用户可以通过在env中设置job.retry.times = 0来关闭自动重试。

关键Bugfix

Zeta引擎支持classloader cache功能,如果连接器已经加载到jvm中,Zeta引擎会缓存该classloader,下次再提交该种连接器对应的任务会使用缓存的classloader不再创建新的classloader,这种方式解决了提交大量任务时Zeta JVM metaspace内存增长的问题,解决了metaspace内存溢出的bug。

修复了SQL Transform精度丢失的问题,比如timestamp类型的字段可以保留之前的精度信息。

Bug fix

Core

  • fix\] 修复获取 SeaTunnel 空指针异常问题 (#6681)

  • Chore\] 修正文件拼写错误 (#6606)

  • Hotfix\] 修复 Spark 示例问题 (#6486)

Transformer

  • Fix\]\[SQLTransform\] 修复 SQL 转换中的精度丢失问题 (#6553)

Connectors

  • Fix\]\[Kafka-Sink\] 修复 Kafka Sink端选项规则 (#6657)

  • Bug\] 修复 OrcWriteStrategy/ParquetWriteStrategy 在 Kerberos 登录时的问题 (#6472)

  • E2E\] 修复 Amazon DynamoDB 集成测试的不稳定问题 (#6640)

  • Fix\]\[Connector-V2\] 修正 Doris/StarRocks 创建表 SQL 解析错误 (#6580)

  • Fix\]\[Connector-V2\] 修复连接器支持 SPI 但缺少无参构造器的问题 (#6551)

  • Fix\]\[FakeSource\] 修复模板随机生成不包含最新值的问题 (#6438)

  • BugFix\]\[Connector-file-sftp\] 修复 SFTPInputStream.close 未正确触发文件流关闭的问题 (#6323) (#6329)

  • fix\]\[connector-rocketmq\] 修复当 checkpoint.interval 设置过小导致的空指针异常问题 (#6624)

  • Fix\]\[StarRocks\] 修复上游 catalogtable 表路径仅有表名部分时的空指针异常 (#6540)

  • Bug\] \[formats\] 修复内容包含文件分隔符时无法解析行的问题 (#6589)

  • Hotfix\] 修复 HTTP 源无法正确读取 'yyyy-MM-dd HH:mm:ss' 格式并优化日期时间工具 (#6601)

  • Fix\]\[Zeta\] 改进本地模式下的 Hazelcast 连接 (#6521)

  • Bug\] \[zeta\] 修复提交作业时的空指针异常 (#6492)

  • BUG\]\[Zeta\] 工作名称显示错误 #6470

E2E

  • E2E\] 启用 StarRocksCDCSinkIT (#6626)

  • Doc\]\[Improve\] 增加 seatunnel-engine 中文支持 (#6656)

  • Improve\] 为 IDEA 添加图标 (#6394)

  • Improve\]\[RestAPI\] 调用 getJobInfoById API 时始终返回 jobId (#6422)

  • Improve\] 提升 MultiTableSinkWriter 准备提交性能 (#6495)

  • Improve\]\[API\] 统一数据和类型系统 API (#5872)

  • Improve\]\[Connector-V2\] 支持 Redis 的多表汇出功能 (#6314)

  • Improve\]\[Connector-V2\] 支持 HTTP Sink端的多表功能 (#6316)

  • Improve\]\[Connector-V2\] 支持 Hadoop HA 和 Kerberos 的 Paimon Sink端 (#6585)

  • Improve\]\[CDC\] 优化快照分割读取时的内存分配 (#6281)

  • Improve\]\[Jdbc\] 使用 varchar2 数据类型在 Oracle 中存储字符串 (#6392)

  • Improve\]\[JDBC\] 优化获取 JDBC 字段类型的代码风格 (#6583)

  • Improve\]\[Connector-V2\] 支持使用架构配置读取 ORC 并进行类型转换 (#6531)

  • Improve\]\[Jdbc\] 自动创建表时增加类型转换器 (#6617)

  • Improve\]\[CDC\] 优化记录中不包含架构字段时的读取性能 (#6571)

  • Improve\] 在 SelectDB 云Sink端禁用 2PC (#6266)

CI

  • CI\] 修复 CI 配置文件中仓库名称的错误 (#4795)

  • Improve\]\[Zeta\] 增加类加载器缓存模式以修复元空间泄漏 (#6355)

  • Improve\]\[Test\] 代码合并到开发分支时运行所有测试 (#6609)

  • Improve\]\[Zeta\]\[storage\] 更新 HDFS 配置,支持更多参数 (#6547)

Transformer

  • Improve\]\[Transform\] Sql transform 支持内部结构查询 (#6484)

  • Improve\]\[Transform\] 移除找不到字段的异常 (#6691)

  • Feature\]\[Tool\] 增加连接器检查脚本,解决问题 #6199 (#6635)

  • Feature\]\[Core\] 支持作业事件监听 (#6419)

  • Feature\]\[Connector-V2\] 支持 Paimon 的多表汇出功能 #5652 (#6449)

  • Feature\]\[Connector\] 更新 PgSQL-CDC 发布以添加表 (#6309)

  • Feature\]\[Feature\] 支持 Doris DateTimeV2 类型的 (#6358)

  • Feature\]\[Feature\] 支持 Iceberg Sink连接器 #6198 (#6265)

  • Zeta\] 支持在作业配置中设置作业重试次数 (#6690)

  • Docs\] 修复 kafka 格式的拼写错误 (#6633)

  • Fix\]\[Doc\] 修正一些拼写错误 (#6628)

  • Hotfix\]\[Doc\]\[Chinese\] 修复关于配置日志相关参数的无效链接 (#6442)

贡献者名单

感谢所有为2.3.5版本做出贡献的社区成员,包括代码贡献者、文档撰写者和测试人员。Apache SeaTunnel的成功离不开每一个人的努力!

Jetiaime LeonYoah TyrantLucifer
ponxu EricJoy2048 sunxiaojian
xiaochen-zhou CosmosNi lightzhao
baicie Hisoka-X gitfortian
hailin0 ruanwenjun shangeyao
corgy-w liunaijie dailai
taohaozhi1129 LeonYoah nianhua99
xxzuo YalikWang

本文由 白鲸开源科技 提供发布支持!

相关推荐
一个天蝎座 白勺 程序猿1 小时前
大数据(4.6)Hive执行引擎选型终极指南:MapReduce/Tez/Spark性能实测×万亿级数据资源配置公式
大数据·hive·mapreduce
HelpHelp同学2 小时前
信息混乱难查找?三步搭建高效帮助中心解决难题
大数据·人工智能·知识库管理系统
TDengine (老段)8 小时前
TDengine 中的关联查询
大数据·javascript·网络·物联网·时序数据库·tdengine·iotdb
直裾12 小时前
Mapreduce的使用
大数据·数据库·mapreduce
麻芝汤圆14 小时前
使用 MapReduce 进行高效数据清洗:从理论到实践
大数据·linux·服务器·网络·数据库·windows·mapreduce
树莓集团15 小时前
树莓集团海南落子:自贸港布局的底层逻辑
大数据
不剪发的Tony老师15 小时前
Hue:一个大数据查询工具
大数据
靠近彗星15 小时前
如何检查 HBase Master 是否已完成初始化?| 详细排查指南
大数据·数据库·分布式·hbase
墨染丶eye16 小时前
数据仓库项目启动与管理
大数据·数据仓库·spark
SelectDB16 小时前
Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座
大数据·数据库·aigc