Apache Beam 2.50.0发布,该版本包括改进功能和新功能

|----|-----------------------------------------------------------|
| 导读 | 我们很高兴向您介绍 Beam 的新版本 2.50.0。该版本包括改进功能和新功能。请查看此版本的下载页面。 |

亮点

  1. Spark 3.2.2 被用作 Spark 运行程序的默认版本(#23804)。
  2. Go SDK 新增默认本地运行程序,名为 Prism(#24789)。
  3. 所有 Beam 发布的容器镜像现在都是多架构镜像,同时支持 x86 和 ARM CPU 架构。

输入/输出

  1. Java KafkaIO 现在支持通过 topicPattern 提取主题(#26948)
  2. 支持从 Cosmos DB Core SQL API 读取数据(#23604)
  3. HBaseIO 升级至 HBase 2.5.5。(Java)(#27711)
  4. 增加了对 GoogleAdsIO 源的支持(Java)(#27681)。

新功能/改进

  1. Go SDK 现在需要 Go 1.20 才能构建。(#27558)
  2. Go SDK 新增默认本地运行程序 Prism。(#24789).
  3. Prism 是一种可移植的运行程序,能独立执行每个转换,确保编码人员的安全。
  4. 目前,它在功能上取代了 Go 直接运行程序。Go 直接运行程序现已弃用。
  5. 有关 Prism 的目标和功能,请参见 https://github.com/apache/beam/blob/master/sdks/go/pkg/beam/runners/prism/README.md。
  6. 在 Python SDK 中添加了用于 RunInference 的抱脸模型处理程序。(#26632)
  7. 在 Python SDK 中添加了 RunInference 的 Hugging Face Pipelines 支持。(#27399)
  8. RunInference 的顶点 AI 模型处理程序现在支持私有端点 (#27696)
  9. 添加了 MLTransform 变换,支持常见的 ML 预/后处理操作 (#26795)
  10. 将 Java SDK 的 Kryo 扩展升级至 Kryo 5.5.0。这带来了错误修复、性能改进以及 Java 14 记录的序列化。(#27635)
  11. 所有 Beam 发布的容器镜像现在都是支持 x86 和 ARM CPU 架构的多架构镜像。(#27674).多架构容器镜像包括:所有版本的 Go、Python、Java 和 Typescript SDK 容器;所有版本的 Flink 作业服务器容器;Java 和 Python 扩展服务容器;Transform 服务控制器容器;Spark3 作业服务器容器.
  12. 添加了对 AWS SQS 批量写入的支持,以提高吞吐量(Java、AWS 2)。

破坏性变更

  1. Python SDK:从 Dataflow 中移除传统运行程序支持,所有管道都必须使用运行程序 v2。
  2. Python SDK:在管道提交时,Dataflow Runner 不会再将来自 PyPI 的 Beam SDK 放在 --staging_location 中。非基于 Beam 默认镜像的自定义容器镜像必须包含 Apache Beam 安装。
相关推荐
Hello.Reader1 天前
Apache Flink 2.2.0 源码编译从环境准备到 PyFlink 打包一次讲清
大数据·flink·apache
青衫客361 天前
浅谈 Apache POI:XSSFWorkbook 的原理与实践(Java 操作 Excel 实践指南)
java·apache·excel
DolphinScheduler社区1 天前
Apache DolphinScheduler 3.4.1 发布,新增任务分发超时检测
java·数据库·开源·apache·海豚调度·大数据工作流调度
吴声子夜歌1 天前
小程序——开放接口(登录和用户信息)详解
小程序·apache
倔强的石头1062 天前
工业平台选型指南:权限、审计与多租户治理——用 Apache IoTDB 把“数据可用”升级为“数据可控”
人工智能·apache·iotdb
SeaTunnel2 天前
Apache SeaTunnel 2.3.13 版本前瞻:核心引擎变化和 AI ETL 趋势值得关注
数据仓库·人工智能·apache·etl·seatunnel·数据同步
Apache IoTDB3 天前
谷歌编程之夏 2026:Apache IoTDB 项目征集正式开启!
apache·iotdb
一个天蝎座 白勺 程序猿3 天前
Apache IoTDB(17):IoTDB数据保留时间管理从TTL设置到智能数据生命周期控制
数据库·apache·时序数据库·iotdb
DolphinScheduler社区3 天前
Apache DolphinScheduler 2 月社区动态:功能升级与优化齐飞
开源·apache·任务调度·开源社区·海豚调度·大数据工作流调度
jgyzl3 天前
2026.3.10 Apache POI的学习及思考
学习·apache