Flink Forward Asia 2025 主旨演讲精彩回顾

作为 Apache Flink 社区备受瞩目的年度盛会之一，由阿里云承办的 Flink Forward Asia 2025 于 7 月 3 日在新加坡正式拉开帷幕。

From Real-Time Data Analytics to Real-Time AI，Flink 生态全面拥抱 AI

本次大会上，Apache Flink 中文社区发起人、Apache Paimon PMC Member、阿里云开源大数据平台负责人王峰带来了演讲《From Real-Time Data Analytics to Real-Time AI》。王峰表示，伴随着 Agentic AI 的兴起与发展，实时数据与实时AI相结合，正在成为 AI 大规模落地生产应用的关键环节。

"我们认为 AI Agent 的未来必定是工业化的，除了用户触发的 AI Agent，将来会有更多 Agent 应用是由系统触发的，比如在线交易、网站点击、车辆行驶状态、IoT 设备接收到的变化等等，这类 AI Agent 应用对计算规模和稳定性提出了更高的要求，也需要实时数据处理与实时 AI 处理的深度融合。"

为此，Apache Flink 社区正式发起全新的子项目 Flink Agents。Flink Agents 是专为事件驱动型的 AI 智能体（System-Triggered Agent）打造的 Agent 编程框架。依托于 Flink 流式引擎内核，Flink Agents 天然具备大规模、分布式、实时数据处理能力，以及成熟的状态管理、一致性保障与容错恢复能力，在此基础上，Flink Agents 提供了开发 Agentic AI 系统所必需的 LLM、Memory、Tool、Prompt 等关键概念的封装，以及动态执行计划、循环执行、共享状态、可观测性等能力。目前，Flink Agents 项目正由阿里云、Confluent、Ververica、LinkedIn 等团队联合贡献，将于今年 9 月左右发布首个 MVP 版本。

无数据，不 AI，多模态数据对大模型发展的价值日益凸显。传统的"数据清洗→特征提取→模型推理"的离散链路开发效率低下，且会带来数据血缘断裂、运维复杂度陡增等问题。Apache Flink 2.1 正式集成 AI Function，支持通过 Flink SQL 将模型注册为元数据中的可管理对象，支持原生 AI Function 调用，开发者可直接在 SQL 中通过 ML_PREDICT 内置函数调用大模型服务，进而实现基于 Flink SQL 完成数据清洗、分析处理到 AI 推理的全链路实时计算。

Flink 2.0：存算分离，迈向云原生架构

从最初的流处理框架到全球流计算的事实标准，Flink 在性能优化和稳定性提升的路上持续升级。王峰介绍，Apache Flink 2.0 创新性地中提出了一种全新的"解耦式状态管理架构（Disaggregated State Management）"，将状态存储与计算任务分离，利用廉价的对象存储来共享数据，从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。

Flink 2.0 从架构上根本解决了长久以来快照消耗大、状态恢复慢、状态和计算捆绑造成成本高的问题，标志着 Flink 在分布式流处理系统状态管理架构上的重大突破，也代表着 Flink 向云原生架构演进的重要里程碑。据悉，该项研究成果《Disaggregated State Management in Apache Flink® 2.0 》由 Apache Flink 社区、阿里云实时计算 Flink 团队以及多位学术界研究人员共同完成，已被被数据库领域顶级会议 VLDB 2025 正式接收。

Paimon：面向AI时代的多模态统一湖存储

Apache Paimon PMC 主席、Apache Flink PMC 成员李劲松分享了 Apache Paimon 的最新进展。Paimon 是一个流批一体的存储系统，与 Flink 结合构建Streaming Lakehouse 架构。在生态兼容方面，得益于 Iceberg V3发布的 Deletion Vectors 能力，用户可以将 Iceberg 数据通过 Snapshots 实时同步到 Paimon，并保证分钟级别的查询延时。同时面向 AI 时代的多模态数据存储，Paimon 集成了 Lance 文件格式，创新设计支持大体积 Blob（二进制大对象）的高效存储，完美适配音视频等非结构化数据场景。在列文件的随机访问、添加列数据方便也具有极强的性能。Paimon 已经实现广泛的应用，在阿里巴巴集团内部，Paimon 处理了数百 PB 量级的数据，单表每秒处理高达 4000 万行，实现了数据及时性提升一小时的目标。此外，Paimon 还成功应用于 vivo、小米、字节跳动和 Shopee 等企业，展示了其在实时数据湖和多模态数据存储的强大能力。

阿里云将全托管的 Paimon 集成到了数据湖构建 DLF 产品中，针对 Paimon 进行智能存储优化，存储成本降低 30% 以上，查询性能提升2倍以上。同时 DLF 还可以无缝对接多种计算引擎，实现一体化的元数据管理。在本次峰会上，DLF 宣布最新的 Paimon Catalog 在新加坡和雅加达地区开放公测，用户可以直接申请试用。

Fluss：面向实时数据分析与AI负载的流表存储系统

Apache Flink PMC 成员伍翀也分享了 Fluss 项目的最新进展。Fluss 是由阿里巴巴研发和开源的流表存储系统，专为现代分析和 AI 工作负载而设计。Fluss 创新性地将列式存储与流式更新能力融入流存储，并与 Flink 等流计算引擎深度集成，同时与主流 Lakehouse 格式如 Paimon 和 Iceberg 进行一体化设计，能显著降低实时数仓建设成本，提升数据开发效率。它通过统一的流处理和批处理能力，结合列式存储、分区裁剪等优化技术，实现了高效的数据读写和零数据复制，显著提升了数据处理效率。

自2024年12月开源以来，Fluss 社区持续活跃，吸引了来自字节跳动、蚂蚁金服、小米、eBay、腾讯、Dream11 等公司的开发者参与共建。2025年6月，阿里巴巴正式将 Fluss 捐赠给 Apache 软件基金会，标志着其迈入更加开放、中立的发展阶段，也为 AI 时代的实时数据基础设施建设奠定坚实基础。

本次大会也请到了国际权威咨询机构 Forrester 副总裁 Mike Gualtieri ，他表示：Apache Flink 作为实时数据处理的事实标准，为企业构建了支持 AI 的中枢神经系统。通过实时数据流，企业能够整合多种数据源，支持事件驱动的架构，并构建实时 AI 代理和应用程序。这也应证了 Flink 社区的发展方向"The Future of AI is Real-Time"。