第 10 章:从文本到多模态 ------ 统一生成的未来
论文 :Continuous Latent Diffusion Language Model
项目地址 :ByteDance-Seed/Cola-DLM
核心困惑:Cola DLM 的框架能扩展到多模态吗?扩散语言模型的下一步是什么?
一、论文中的文本-图像统一实验
论文 Discussion 部分展示了一个初步的多模态实验:
- 不同模态有各自的 VAE(文本 VAE、图像 VAE)
- 共享同一个分块因果 MMDiT 先验
- 在联合隐空间上做 Flow Matching
text
文本 token → Text VAE encoder → z_text ─┐
├→ 共享 MMDiT 先验 → 联合隐空间
图像像素 → Image VAE encoder → z_image ──┘
注意:这只是前期探索,未包含在开源发布中。
二、为什么这个框架天然适合多模态
2.1 VAE 解耦
每个模态有自己的 encoder/decoder,不需要修改先验模型:
| 模态 | Encoder | Decoder | 隐空间维度 |
|---|---|---|---|
| 文本 | Text VAE encoder | Text VAE decoder | ( n i , 16 ) (n_i, 16) (ni,16) |
| 图像 | Image VAE encoder | Image VAE decoder | ( h , w , c ) (h, w, c) (h,w,c) |
| 音频 | Audio VAE encoder | Audio VAE decoder | ( t , d ) (t, d) (t,d) |
2.2 先验共享
所有模态共享同一个 DiT 先验。先验学习的是隐空间的"通用语义结构",不依赖于具体模态。
2.3 Flow Matching 的通用性
Flow Matching 在连续空间上定义,不关心隐向量来自哪个模态。只要隐空间是连续的,Flow Matching 就能工作。
三、技术挑战
3.1 隐空间对齐
不同模态的隐空间维度/尺度不同:
- 文本: ( n i , 16 ) (n_i, 16) (ni,16), n i n_i ni 可变
- 图像: ( 64 , 64 , 4 ) (64, 64, 4) (64,64,4),固定大小
如何把它们对齐到同一个先验模型的输入空间?
可能方案:
- 统一 patchify:把所有模态的隐向量切成相同大小的 patch
- 跨模态注意力:让先验模型同时处理多种模态的 patch
3.2 跨模态注意力的计算开销
如果文本和图像的隐序列都很长,注意力的计算量会急剧增加。
3.3 训练数据
多模态训练需要配对数据(图文对、音文对等),获取成本高。
四、与竞争方案的对比
| 方案 | 代表工作 | 多模态策略 | 优势 | 劣势 |
|---|---|---|---|---|
| 离散 token 统一 | Chameleon (Meta) | 所有模态转为离散 token | 简单统一 | 量化损失 |
| 混合目标 | Transfusion (Meta) | 文本用 AR,图像用扩散 | 各取所长 | 训练复杂 |
| 连续隐空间统一 | Cola DLM | 各模态独立 VAE + 共享先验 | 数学优雅,扩展性好 | VAE 质量瓶颈 |
五、扩散语言模型的开放问题
5.1 能否 scale 到 70B+?
当前最大的扩散语言模型是 LLaDA 8B。Cola DLM 的 scaling 曲线仍在上升,但能否 scale 到 70B+ 还是未知数。主要挑战:
- 训练稳定性(扩散模型的训练比 AR 更难稳定)
- 计算效率(Flow Matching 需要多步 ODE 求解)
- 数据需求(两阶段训练需要更多数据)
5.2 能否做长文本生成?
当前 Cola DLM 只能生成 32 个 token。长文本生成需要:
- 更大的 block_size
- 更好的长程依赖建模
- 可能需要层级化的先验(不同粒度的 block)
5.3 能否和 RLHF 结合?
RLHF 需要:
- 从模型采样多个输出
- 训练 reward model
- 用 PPO/DPO 优化
扩散语言模型的采样过程比 AR 更复杂(需要多步 ODE),但不是不可行。关键挑战是如何在扩散过程中做梯度回传。
六、2026 年的批判性视角
6.1 扩散语言模型是 AR 的替代品还是补充?
当前来看,更可能是补充:
- AR 擅长:知识密集型任务、长文本、推理链
- 扩散擅长:全局规划、多模态统一、并行生成
未来可能看到混合架构:用 AR 做粗粒度规划,用扩散做细粒度生成。
6.2 Cola DLM 的真正价值
Cola DLM 的真正价值不在于当前的 benchmark 分数(26.75%),而在于:
- 证明了连续隐空间扩散的可行性:这是一条值得探索的技术路线
- 提供了统一多模态的框架:VAE + 共享先验的设计天然支持扩展
- 推动了扩散语言模型的研究:无论 Cola DLM 是否成功,它都促进了这个方向的发展
6.3 下一步最可能的突破
- 更好的 VAE:更大 latent_dim、更好的训练目标、更强的编码器
- 更大的 scale:从 2B 到 20B,验证 scaling law
- 多模态联合训练:文本 + 图像 + 音频的统一生成
- 与 AR 的融合:混合架构,各取所长
七、面试追问清单
基础(⭐):
- Cola DLM 的多模态扩展思路是什么?
- 扩散语言模型和 AR 模型各有什么优势?
- 为什么 VAE 的质量是 Cola DLM 的瓶颈?
进阶(⭐⭐):
- 如何把不同模态的隐空间对齐到同一个先验模型?
- 扩散语言模型如何和 RLHF 结合?
- Cola DLM 的 scaling 曲线"仍在上升"意味着什么?
专家(⭐⭐⭐):
- 连续隐空间统一 vs 离散 token 统一(Chameleon),哪种更有前景?
- 如果训练一个 70B 的 Cola DLM,主要的技术挑战是什么?
- 扩散语言模型能否在推理(reasoning)任务上超越 AR?
八、系列总结
经过 10 章的深入分析,我们对 Cola DLM 有了全面的理解:
核心思想:在连续隐空间做扩散,而不是在离散 token 空间。用 VAE 解耦离散/连续,用 Flow Matching 学习隐空间先验,用分块因果注意力处理序列数据。
技术贡献:
- 证明了连续隐空间扩散语言模型的可行性
- 提供了统一多模态的框架
- 开源了完整的推理代码和评测工具
当前局限:
- 绝对性能低(2B 参数,26.75% 平均准确率)
- 仅支持短输出(32 tokens)
- 工程实现有待优化(无 Flash Attention、串行处理)
未来方向:
- 更大的 scale(20B+)
- 多模态统一(文本 + 图像 + 音频)
- 与 AR 的融合
Cola DLM 可能不是扩散语言模型的最终形态,但它为这个方向指明了一条值得探索的路。
系列导航
第 10 章:从文本到多模态 ← 你在这里
作者 :Yunzenn