从分层训练到一步生成:Kaiming He 的生成模型进化之路—CVPR2025演讲小结

引言:生成模型的新问题

生成模型(如 Diffusion、Autoregressive)在图像、文本、音频生成领域已经大放异彩。但它们仍然面临一个关键瓶颈:多步生成、推理时间长、无法端到端

Kaiming He 教授在 CVPR 2025 上做了这场名为《Towards End-to-End Generative Modeling》的教程,深入探讨了:

  • 识别模型与生成模型的对偶结构;
  • Flow Matching 如何建立路径;
  • 平均流(MeanFlow)模型如何实现一步生成。

本文为该教程的详细解读。


Part 1:历史回顾 --- 从层级训练到端到端识别

AlexNet之后:端到端识别成为主流

  • 自 2012 年 AlexNet 横空出世以来,深度网络训练强调端到端反向传播
  • 模型架构:Layer1 → Layer2 → ... → LayerN → 分类头 → Backpropagation。

AlexNet之前:分层训练曾是主流

  • 早期模型如 DBN(Deep Belief Net)、Denoising Autoencoders(DAE)使用逐层训练(layer-wise pretraining)
  • 每一层单独训练,并局部构建 loss。


Part 2:历史是否在生成模型中重演?

类似分层训练的现象再次出现:

  • Diffusion Models:逐步加噪、逐步去噪。
  • Autoregressive Models :一步步生成 token。

它们本质上都像是在执行"多步反向生成"------一个现代的"分层生成"。


Part 3:识别 vs 生成:同一硬币的两面?

一张经典图(作者 Phillip Isola)揭示了这一思想:

  • 识别:从数据到抽象(embedding)
  • 生成:从抽象到数据
  • 两者共享 embedding,是互为镜像的过程。
  • 识别强调"确定映射",生成强调"多样性建构"。

Part 4:流匹配(Flow Matching):桥接路径的方式

识别是数据 → label,生成是 noise → data。

如何构建从 noise 到 data 的路径?

答案之一:Flow Matching

  • 借助神经常微分方程(Neural ODE)
  • 构建流场(velocity field)
  • 将噪声样本逐步"流"向真实数据

但传统 Flow Matching 仍然依赖逐步估计轨迹 ,本质上仍是多步。


Part 5:MeanFlow --- 一步式生成模型的尝试

为了解决多步生成的问题,Kaiming He 和团队提出:

MeanFlow(平均流)模型

关键思想:

  • 不再逼近整条路径积分(太贵);
  • 直接建模平均速度场(average velocity);
  • 导数形式 替代积分 → 更高效;
  • 推导出 MeanFlow Identity,为训练提供直接目标;

与 Flow Matching 比较:

特性 Flow Matching MeanFlow
是否积分 需要轨迹积分 用微分替代积分
是否逐步生成 否(一步)
可否端到端 可以
速度建模 实时速度 v 平均速度 u

Part 6:实验证明

数据集:ImageNet 256x256

  • 1-step 生成(1-NFE) 取得 FID ≈ 3.43,媲美传统多步模型。
  • 速度提升 70%,保持生成质量。
  • 图像样例显示模型具有良好的细节保真度。

Part 7:未来展望

"我们是否仍处在生成模型的 AlexNet 之前?"

  • MeanFlow 仍以 Flow Matching 思维为内核;
  • 核心目标:找到真正的端到端生成建模方式
  • 挑战:
    • 如何同时兼顾速度场、轨迹、分布合理性。

总结:端到端生成建模的曙光

这场教程不仅回顾了生成模型的技术发展,还提出了一个可行的方向------一步式平均流建模

博客核心要点:

  • 生成和识别是"同一硬币的两面";
  • Flow Matching 建立路径,但多步;
  • MeanFlow 使用导数替代积分,追求一步建模;
  • 实验效果优异,值得进一步关注。

参考资料:

  • 📄 论文地址:arXiv: MeanFlow (May 2025)
    • Denoising Diffusion Probabilistic Models
    • Consistency Models (Song+)
    • Neural ODE / Flow Matching