1. 大会总览
1.1 这场大会在讲什么?
Flink Forward Asia 2026 传递了一个非常明确的信号:
Apache Flink 正在从「实时数仓 / ETL 引擎」,演进为「AI 时代的多模态流式编排平台」。
过去 Flink 的主战场是:
- 结构化日志、指标、交易流水
- SQL 聚合、窗口、Join
- 毫秒~秒级延迟的实时计算
现在要进入的新战场是:
- 视频、音频、图像 等多模态数据流
- CPU 预处理 + GPU 推理 的混合 Pipeline
- VLM / LLM / TTS 等大模型服务的实时编排
- Agentic 场景下的感知、认知、记忆
1.2 三位讲者的分工
| 讲者 | 身份 | 核心贡献 |
|---|---|---|
| 王峰 | 阿里云智能集团研究员、开源大数据平台负责人 | Flink 战略演进、三层能力升级、Pipeline 架构、阿里云落地案例 |
| 陈川 | NVIDIA 互联网解决方案架构高级总监 | CUDA 加速栈、Flink×GPU 工程框架、本地/远程推理优化 |
| 李博杰 | AI 独立研究者 | Agent 理论框架:「一个 Agent = 一个 Flink 作业」 |
三者形成完整叙事链:
基础设施演进(王峰)→ 硬件加速落地(陈川)→ Agent 抽象模型(李博杰)
2. 王峰:Flink 向多模态与 AI 演进
2.1 三层演进路线图
Flink 的 AI 化不是单点功能,而是 API 层、算子层、算力层 的系统升级:
| 层级 | 从 → 到 | 目标用户 | 关联 FLIP |
|---|---|---|---|
| API 层 | SQL → DataFrame | 数据工程师 → 算法工程师 | FLIP-591:PyFlink DataFrame API |
| 算子层 | 结构化文本分析 → 多模态算子 | 文本 ETL → 语音/图像/视频处理 | FLIP-593:内置多模态算子 |
| 算力层 | CPU → GPU | 通用计算 → AI 加速计算 | FLIP-592:加速器资源支持 |
开发者解读:
- 如果你现在是 Flink SQL 开发者,未来需要关注 PyFlink DataFrame,这是算法同学进入 Flink 生态的入口。
- 多模态算子意味着不必每个团队自己写 FFmpeg 胶水代码,而是 标准化 GPU 算子 进入 Flink 生态。
- GPU 调度从「外挂脚本」变成 Flink 资源管理的一部分,影响 TaskManager 部署、资源隔离、弹性扩缩容设计。
2.2 关键判断
在多模态场景下,Flink 有很好的潜力和机会。
原因不是 Flink 会训练模型,而是 Flink 擅长:
- 连续数据流 的编排
- 事件时间 语义
- 有状态 计算与容错
- 背压 与流量控制
这些恰恰是 AI 实时应用(解说、监控、质检、数字人)的刚需。
3. Pipeline 执行架构
3.1 架构图
CPU → Network → GPU → Network → CPU → Network → GPU → Network → CPU
这不是简单的「先 CPU 后 GPU」,而是 多级流水线并行:
- 批次 N 在 GPU 推理时,批次 N+1 可能在 CPU 预处理,批次 N-1 在写输出
- 全链路保持流动,避免 GPU 空转
3.2 三大优势
| 优势 | 技术含义 | 业务价值 |
|---|---|---|
| 全链路 Pipeline 并行 | 多阶段 overlap 执行 | 提高 GPU 利用率,降低端到端延迟 |
| 网络直传 | 数据跨节点直传,减少落盘 I/O | 避免 GPU 被慢 I/O 拖累 |
| 秒级 Checkpoint | 快速状态快照与恢复 | 故障后少浪费昂贵 GPU 算力 |
3.3 开发者要点
传统 AI 推理架构常见模式:
Kafka → 批处理服务 → 对象存储 → 另一个推理服务 → 再写回
Pipeline 架构追求的是:
Source → [CPU UDF] → [GPU UDF] → [Async Model API] → [GPU Mux] → Sink
└──────────── 同一 Flink Job 内流水线化 ────────────┘
关键转变:从「多个独立服务拼起来的数据管道」到「一个 Flink Job 统一编排的 Pipeline」。
4. 体育赛事 AI 解说案例
4.1 技术栈
- 流编排:阿里云 Flink
- 模型服务:阿里云百炼 / PAI(Qwen VLM、LLM、TTS)
- 硬件加速:NVIDIA GPU
4.2 五层架构
┌─────────────────────────────────────────────────────────┐
│ 多模态数据层:输入视频流 | 用户弹幕 | 输出视频流 │
├─────────────────────────────────────────────────────────┤
│ 多模态接入层:HLS/RTMP Source & Sink (FFmpeg + NV Codec) │
├─────────────────────────────────────────────────────────┤
│ 多模态算子层:抽帧 | 图像压缩 | 音视频合并 (GPU) │
├─────────────────────────────────────────────────────────┤
│ Agentic 算子层:视觉理解 | 解说合成 | 风格改写 | TTS │
├─────────────────────────────────────────────────────────┤
│ 模型服务:Qwen VLM | Qwen LLM | Qwen TTS (百炼/PAI) │
└─────────────────────────────────────────────────────────┘
4.3 算子颜色编码(部署规划参考)
| 颜色 | 类型 | 典型任务 | 部署建议 |
|---|---|---|---|
| 🟢 绿色 | Flink GPU 算子 | 抽帧、压缩、混流 | GPU TaskManager |
| 🔵 蓝色 | Flink CPU 算子 | 路由、编排、逻辑 | CPU TaskManager |
| 🟡 黄色 | 本地模型 | 风格改写等小模型 | 本地 GPU + TensorRT-LLM |
| 🔴 红色 | 远程大模型 | VLM/LLM/TTS | 百炼/PAI API,Async I/O |
4.4 数据流(端到端)
- 直播视频进入 → FFmpeg 硬解码
- GPU 抽帧、压缩 → 图像送 VLM
- VLM 理解 + 弹幕 → LLM 生成解说词
- 本地 LLM 风格改写 → TTS 生成音频
- GPU 音视频合并 → HLS 推流输出
4.5 开发者启示
这个案例不是 Demo 级别的「调 API」,而是暴露了真实生产系统的核心难点:
- 多路流对齐(视频段、理解结果、文本、音频)
- 异构算力调度(CPU/GPU/云端 API)
- 延迟与成本平衡(什么放本地、什么调云端)
5. 陈川:NVIDIA CUDA 加速框架
5.1 框架全景
HLS Source (mediastream)
│
▼
视频切片 (Event Time)
│
▼
Extract UDF (GPU Optimized)
├── NVDEC (硬解码)
├── Sample (抽帧)
├── CV-CUDA (缩放/预处理)
└── nvJPEG (压缩)
│
▼
Flink Agentic Operator (动态调度)
├── VLM → 事件
├── LLM → 解说稿 (+ 风格/长度/合规护栏)
├── Memory 管理
├── TTS → 音频
└── 用户输入 (弹幕/互动)
│
▼
Mux/Remux (NV Codec) → HLS Sink (新直播流)
5.2 分工原则
| 组件 | 职责 |
|---|---|
| Flink | 流式编排、时间语义、状态管理、Join、背压、容错 |
| NVIDIA | 媒体处理热点 + 推理热点的低延迟加速 |
5.3 两类 GPU 优化
GPU Local Optimized(本地)
- GPU FFmpeg、NVDEC/NVENC、CV-CUDA、nvJPEG
- TensorRT-LLM 加速本地小模型
- 适合:延迟敏感、高吞吐、重复计算
GPU Remote Optimized(远程)
- VLM / LLM / TTS 远端推理服务
- 适合:大模型、弹性扩缩、成本优化
5.4 Flink 流式主干能力清单
| Flink 特性 | 在 AI 解说中的作用 |
|---|---|
| Source Connector | 接 HLS 直播流 |
| UDF | GPU 抽帧、自定义处理 |
| Keyed State | 按比赛/频道/segment 存状态 |
| Event-Time Window | 按比赛时间切片 |
| Async I/O | 调 VLM/LLM/TTS 不阻塞流水线 |
| Backpressure | 推理慢时自动减速上游 |
| segment_id | 对齐视频、理解、文本、音频 |
5.5 开发者要点
segment_id 是多模态实时系统的「主轴」:
没有它,会出现:
- 画面进球了,解说慢三秒
- TTS 音频和当前画面不匹配
- 重试/乱序后结果张冠李戴
这是 Flink 相比「脚本 + 消息队列」的核心优势:原生的事件时间与有状态 Join。
6. NVIDIA × 阿里云协作总结
6.1 一句话
Flink 让多模态流 可编排、可对齐、可恢复 ;NVIDIA 让处理与推理热点 低延迟、高吞吐、可扩展。
6.2 四大支柱
- 统一多模态实时编排 --- 视频切片、关键帧、解说文本、TTS 音频、业务事件进同一 Pipeline
- 解决时间对齐与状态压力 --- Event Time + segment_id + 有状态计算
- 加速关键路径 --- GPU 编解码、图像处理、推理加速
- 沉淀可复用社区能力 --- Connector、Operator、UDF、Runtime 优化路径
6.3 演进方向
实时数据处理 ──→ 实时理解与内容生成
(ETL/风控/指标) (解说/资讯/问答/Agent)
7. 李博杰:AI Agent 的「两朵云」
7.1 「两朵云」是什么?
不是云厂商,而是挡在 真正 AI Agent 前面的两大难题:
| 云朵 | 含义 | 核心矛盾 |
|---|---|---|
| 第一朵云:流式与环境交互 | 像人一样实时看、听、操作、对话 | 既要几百毫秒响应,又要深度思考 |
| 第二朵云:自主从经验中学习 | 越用越聪明,但不反复训练模型 | 经验怎么存、怎么取、怎么更新 |
7.2 与现有 AI 的差距
我们已经习惯:
- 会写代码、做研究的 AI(Deep Research、Coding Agent)
- 「你等我一下」的回合制交互
我们很少见到:
- 像打电话一样 边说边听边打断 的 AI
- 看着屏幕实时操作 的 AI
- 记住你的偏好、越用越顺手 的 AI
8. 一个 Agent,就是一个 Flink 作业
8.1 核心映射
| Agent 环节 | Flink 概念 | 本报告方案 |
|---|---|---|
| 感知(世界→模型) | Source + Event Time + 序列化 | AOI 观测接口、Sema 语义传输 |
| 认知(实时+深思考) | 批流一体 | Interactive ReAct、Latent Bridge |
| 记忆(经验存储复用) | 有状态流处理 + Checkpoint | UserAsCode、Engram、PreAct |
8.2 PART 1 · 感知
现状问题
| 问题 | 表现 | 数据 |
|---|---|---|
| 定时截屏 | 每 3~5 秒看一眼,中间变化全丢 | VideoWebArena:AI 13.3% vs 人类 73.9% |
| 无音频 | 会议、提示音、告警听不到 | 音频任务几乎全部失败 |
解法:AOI + Sema
- AOI(观测接口) :事件触发,不是定时轮询
- 屏幕无变化 → 零开销
- 有语义变化 → 才抽关键帧
- 有声音 → 才做语音理解
- Sema(语义传输):高效序列化,只传有意义的信息
关键发现
用一句话描述当前屏幕,写入上下文 --- 单项带来约 +18pp 提升。
本质:把「转瞬即逝的画面」变成「持久文本」= 短期记忆。
效果
- 动态任务 +17~48pp(相对纯截图)
- Claude 成功率 82%,静态任务不下降
- 音频任务 12/12 全部完成
8.3 PART 2 · 认知
核心矛盾:实时 ⊥ 智能
| 路径 | 延迟 | 智能 | 代表 |
|---|---|---|---|
| 实时但浅 | ~200ms | 弱 | 端到端语音模型 |
| 强但不实时 | 300~500ms+ | 强 | SOTA LLM + Observe-Think-Act |
解法:快慢分离 = 批流一体
| 路径 | Flink 类比 | 职责 |
|---|---|---|
| 前端 / 流 | Stream Processing | 小模型、~200ms、维持对话节奏、编排分流 |
| 后端 / 批 | Batch Processing | SOTA 大模型、深度规划、后台异步执行 |
打游戏类比:只有快 → 会躲不会赢;只有慢 → 会规划但第一下就被打;需要两者兼备。
Interactive ReAct:边听边想
利用 人声速度(5~10 token/s)≪ LLM 速度(~200 token/s) 的空隙:
- 用户还在说 → AI 已在推理、调工具
- 用户说完 → 答案往往已备好(<0.5s 响应)
技术本质:观测是 事件流 ,动作是 交错 token 输出 ,工具调用是 Async I/O。
Latent Bridge:快慢模型通信
吃豆人实验对比三种信道:
| 信道 | 方式 | 得分 |
|---|---|---|
| F(仅快) | 快模型独立决策 | 最低 |
| T(文本) | 慢模型写字指令 | 中等(408) |
| L(Latent) | 慢模型传潜向量 | 最高(628) |
结论:文本压缩丢信息,隐空间直连 是更好的快慢桥梁。
8.4 PART 3 · 记忆
核心类比
记忆 = Flink 有状态流处理(State Backend + Checkpoint)
两类记忆
| 类型 | 回答什么 | 例子 |
|---|---|---|
| 声明式 | 用户是谁?事实是什么? | 护照过期日、偏好设置 |
| 过程性 | 怎么做? | 订国际机票的完整操作流程 |
三种实现
| 方案 | 类型 | 机制 | 类比 |
|---|---|---|---|
| UserAsCode | 声明式 | 结构化事实 + 可执行约束 | 数据库 + 规则引擎 |
| User as Engram | 声明式 | 写入模型参数稀疏槽位 | 背下来的知识 |
| PreAct | 过程性 | 成功轨迹 → 状态机缓存 | 老司机熟路 |
UserAsCode 进阶:为什么 bag-of-facts 不够?
向量检索擅长 召回事实,但不擅长:
- 跨多条记录做计算(如统计国际旅行次数)
- 约束校验(如护照有效期 < 6 个月则告警)
- 主动预先算出风险
python
# UserAsCode 示例:确定性约束执行
for trip in user.trips:
if trip.international:
days_left = passport.expiry_date - trip.departure_date
if days_left < 180:
alerts.append({
"severity": "critical",
"message": f"护照 {passport.number} 有效期不足..."
})
Flink/DB 类比:append-only log + periodic checkpoint = changelog + checkpoint。
9. 开发者视角:技术栈与架构映射
9.1 完整技术栈
┌──────────────────────────────────────────────────────────────┐
│ 应用层 │
│ AI 解说 | 视频监控 | 实时质检 | 数字人 | Computer Use Agent │
├──────────────────────────────────────────────────────────────┤
│ Agent 抽象层 (李博杰) │
│ 感知(AOI/Sema) | 认知(快慢分离/ReAct/Latent) | 记忆(三方案) │
├──────────────────────────────────────────────────────────────┤
│ Flink 编排层 (王峰) │
│ DataFrame API | 多模态算子 | GPU 资源调度 | Pipeline │
│ Event Time | State | Async I/O | Checkpoint | Backpressure│
├──────────────────────────────────────────────────────────────┤
│ 加速层 (陈川/NVIDIA) │
│ NVDEC/NVENC | CV-CUDA | nvJPEG | TensorRT-LLM │
├──────────────────────────────────────────────────────────────┤
│ 模型服务层 │
│ 百炼/PAI (Qwen VLM/LLM/TTS) | 本地小模型 | 自建推理集群 │
├──────────────────────────────────────────────────────────────┤
│ 基础设施层 │
│ K8s | GPU 节点 | 网络 | 对象存储 | CDN/HLS │
└──────────────────────────────────────────────────────────────┘
9.2 模块清单
| 模块 | 技术选型参考 | 关键指标 |
|---|---|---|
| 视频接入 | FFmpeg + NVDEC, HLS/RTMP Source | 解码延迟、协议兼容 |
| 帧处理 | CV-CUDA, nvJPEG, GPU UDF | 抽帧率、压缩比、吞吐 |
| 视觉理解 | Qwen-VL / GPT-4V, Async I/O | 准确率、P99 延迟 |
| 文本生成 | Qwen-Max / Claude, 护栏 | 幻觉率、合规 |
| 语音合成 | Qwen-TTS / CosyVoice | 首包延迟、自然度 |
| 混流输出 | NVENC, Mux/Remux | 音画同步误差 |
| 状态管理 | Flink Keyed State, segment_id | 对齐准确率 |
| 记忆 | UserAsCode / RAG / Engram | 召回率、约束执行正确率 |
| 快慢认知 | 小模型 + SOTA + Latent Bridge | 响应延迟、任务成功率 |
9.3 与传统 Flink 开发的差异
| 维度 | 传统 Flink | AI 多模态 Flink |
|---|---|---|
| 数据类型 | Row/JSON/Avro | 视频帧、音频 chunk、Embedding |
| 算子 | Map/Filter/Aggregate | GPU UDF、Async Model Call |
| 状态大小 | KB~MB 级 | 可能 GB 级(帧缓存、Memory) |
| 延迟要求 | 秒级可接受 | 百毫秒~秒级,音画同步 |
| 外部依赖 | DB/Cache | VLM/LLM/TTS API |
| 容错 | Checkpoint 恢复 | + 模型调用幂等、segment 对齐 |
| 资源 | CPU + 内存 | CPU + GPU + 网络带宽 |
10. 落地挑战与工程建议
10.1 核心挑战
| 挑战 | 描述 | 可能方案 |
|---|---|---|
| 多模态对齐 | 视频、文本、音频时间轴一致 | segment_id + Event Time + Watermark |
| 延迟抖动 | 模型 API 延迟不稳定 | Async I/O + 背压 + 快慢分离 |
| GPU 利用率 | 推理间隙 GPU 空转 | Pipeline 并行 + 批处理叠加 |
| 成本控制 | 大模型 API 按 token 计费 | 本地小模型 + 远程大模型分层 |
| 幻觉与合规 | AI 生成内容不可控 | LLM 护栏 + 长度检查 + 人工审核兜底 |
| 状态膨胀 | Memory/上下文持续增长 | 分层记忆 + TTL + 压缩 |
| 故障恢复 | GPU 节点宕机 | Checkpoint + 模型调用幂等设计 |
10.2 架构建议
1. 先对齐,再优化
第一优先级不是 GPU 加速,而是 segment_id 对齐机制。没有对齐,加速越快乱得越快。
2. 快慢分离是标配
任何需要「实时交互 + 深度推理」的场景,都应考虑:
- 前端小模型(或规则)做即时响应
- 后端大模型做异步深思考
- Latent Bridge 或结构化消息做快慢通信
3. 记忆要结构化
不要把所有经验塞进 prompt:
- 事实 → UserAsCode / RAG
- 技能 → PreAct 轨迹缓存
- 内化知识 → Engram(若技术成熟)
4. 可观测性
多模态 Pipeline 的 Debug 难度远高于 SQL Job,需要:
- 每个 segment 的全链路 trace
- 各阶段延迟分布(解码/抽帧/VLM/LLM/TTS/混流)
- GPU 利用率与显存监控
- 模型调用的 token 消耗与错误率
10.3 适用场景
| 适合 ✅ | 不适合 ❌ |
|---|---|
| 实时 AI 解说/配音 | 离线批量视频分析 |
| 直播监控 + 实时告警 | 训练数据预处理 |
| 数字人实时互动 | 对延迟不敏感的报表 |
| Computer Use Agent | 纯文本对话(无多模态) |
| 工业质检(流式) | 简单规则 ETL |
11. 个人思考与判断
11.1 Flink 做 AI 编排是否合理?
合理,但有边界。
Flink 的优势在于:
- 成熟的事件时间、状态、容错语义
- 统一的流式编程模型
- 社区生态与运维工具链
Flink 不擅长:
- 模型训练与微调
- 极低延迟(<50ms)的端到端语音
- 复杂的 Agent 规划逻辑(更适合上层框架)
判断 :Flink 定位为 AI 应用的「数据面」编排引擎 ,而非 AI 应用的「控制面」Agent 框架。李博杰的「一个 Agent = 一个 Flink 作业」是概念映射,实际落地可能是 Flink + Agent Framework(如 LangGraph)的组合。
11.2 与现有方案对比
| 方案 | 优势 | 劣势 |
|---|---|---|
| Flink 多模态 Pipeline | 对齐/状态/容错原生支持 | 学习曲线、GPU 生态尚在建设 |
| Kafka + 微服务 | 灵活、团队熟悉 | 对齐/状态需自建,运维复杂 |
| Ray Serve / Triton | 推理优化成熟 | 流式语义弱,需额外编排 |
| 纯 FFmpeg + Python | 简单快速 | 难以扩展、无容错、对齐困难 |
11.3 未来 1~2 年展望
- FLIP-591/592/593 逐步落地,PyFlink DataFrame + GPU 算子进入生产
- Flink + NVIDIA 加速库成为多模态流处理的标准组合
- Agentic Operator 成为 Flink 新算子类别,内置 VLM/LLM 调用模板
- 记忆方案(UserAsCode/PreAct)仍在探索期,工程化程度有限
- 竞争:Kafka Streams、Spark Structured Streaming、自研框架会跟进多模态能力
11.4 给开发者的行动建议
| 阶段 | 建议 |
|---|---|
| 现在 | 关注 FLIP 进展,试用 PyFlink DataFrame API |
| 短期 | 用 Flink Async I/O + 远程模型 API 搭建 POC,验证对齐机制 |
| 中期 | 评估 GPU TaskManager 部署,集成 NVDEC/CV-CUDA |
| 长期 | 参与社区多模态算子建设,沉淀领域 Connector/UDF |
结语
Flink Forward Asia 2026 释放的核心信号是:
流式处理引擎正在成为 AI 实时应用的基础设施,就像当年 Spark 成为批处理基础设施一样。
对开发者而言,这意味着:
- 如果你做实时 AI 应用,值得把 Flink 纳入技术选型
- 如果你已是 Flink 开发者,多模态 + GPU + Agent 是下一阶段的必修项
- 如果你做 AI Agent,感知/认知/记忆的设计可以借鉴 Flink 的 Source/批流一体/State 抽象
大会展示的不是遥远的愿景,而是 已经在阿里云落地的体育解说案例 和 NVIDIA 的 CUDA 加速框架。接下来一到两年,将是这套架构从 Demo 走向规模化的关键窗口期。