DiffusionGemma：扩散模型从"画图"走向"写文章"，文本生成速度提升4倍

引言

昨天，Google DeepMind 发布了一个"不太寻常"的开源模型------DiffusionGemma。它用的不是 GPT、Gemini 那套"逐字生成"的自回归路线，而是把图像生成领域大红大紫的扩散模型搬到了文本生成上。结果？在本地推理场景下，速度比传统大模型快了整整 4 倍。这个思路乍听有点反直觉------扩散模型不是用来画图的吗？它怎么写文字？写出来的东西靠谱吗？今天就来拆解一下。

问题背景：逐字生成的"排队困境"

当前几乎所有大语言模型（GPT、Claude、Gemini、DeepSeek......）都采用自回归生成：从左到右，一个 token 接一个 token 地"吐"出内容。这就像在超市排队结账------一次只能服务一个人，后面的人再急也得等。

这种逐 token 串行生成的方式，在云端高并发场景下不是大问题，因为可以批量处理多个请求来摊薄延迟。但在本地推理场景（你的笔记本、单块 GPU）上，串行生成就成了性能瓶颈------内存带宽利用率低，大量计算单元在等前一个 token 算完才能开工。

更麻烦的是，自回归模型一旦"说错话"就没法回头。它只能往后继续编，前面的错误会像多米诺骨牌一样影响后续输出。你一定见过大模型"一本正经地胡说八道"------这就是逐字生成、缺乏全局视野的代价。

技术原理：从噪声中"雕刻"文字

DiffusionGemma 的核心思路，是从图像生成领域借鉴来的扩散机制。理解它只需要三步：

第一步：给一段完美文本加噪。 训练时，模型看到的不是"从空白开始写"，而是一段完整的文本被逐步"糊化"------就像一张清晰照片被反复涂上毛玻璃滤镜，最终变成纯噪声。

第二步：学会从噪声还原文本。 模型的任务就是反向操作：给它一堆乱码般的噪声，它逐步"去噪"，把清晰文字还原出来。这跟雕塑家从一块石头里"凿出"雕像的过程很像------每次去掉一点多余的部分，最终呈现出精确的形态。

第三步：并行生成，一次成型。 这是关键区别。自回归模型是"一个字一个字写"，扩散模型是"一整段一起打磨"。DiffusionGemma 每次前向传播并行处理 256 个 token，多轮去噪后同时输出整段内容。

打个比方：自回归生成像手写一封信，必须从第一个字写到最后一字；扩散生成像冲印照片，整张底片同时在显影液中浮现------虽然需要反复浸泡几次，但画面是整体浮现的。

具体参数

DiffusionGemma 采用 26B 参数的 MoE（混合专家）架构，但推理时只激活 3.8B 参数，量化后可在 18GB 显存的消费级 GPU 上运行。实测速度：单块 H100 达到每秒 1000+ token，RTX 5090 上 700+ token/s，DGX Station 上更是跑到 2000 token/s------大约是同等条件下自回归模型的 4 倍。

此外，由于扩散模型天生具备"双向注意力"（同时看到上下文两侧），它还能在生成过程中自我修正------发现前面"写歪了"，可以在后续去噪轮次中纠正过来，而不像自回归模型只能将错就错。

个人观点：不是替代者，而是补充者

DiffusionGemma 让人兴奋，但需要清醒认识它的定位。

它解决的核心问题是本地推理的效率困境。 随着模型能力越来越强，越来越多的开发者希望在本地设备上跑模型------隐私、成本、延迟都是动因。但本地场景受限于显存带宽，自回归模型的串行生成天然吃亏。扩散模型的并行生成恰好补上了这块短板，4 倍提速不是花架子，而是实打实的工程收益。

但它目前还不是"六边形战士"。 从基准测试看，DiffusionGemma 在数学推理（AIME 2025 得分 23.3%）上表现不错，甚至超过了部分自回归模型；但在复杂科学推理（GPQA Diamond 40.4% vs 56.5%）和综合推理（BIG-Bench Extra Hard 15.0% vs 21.0%）上，与主流自回归模型仍有明显差距。Google 自己也明确说：这是实验性模型，生产环境仍建议用标准 Gemma 4。

更值得关注的是方向本身。 扩散模型在图像领域已经是绝对主流，如今杀入文本领域，本质上是在探索"非自回归文本生成"的可行性。如果后续迭代能补上推理短板，我们可能会看到一条与 GPT 路线完全不同的文本生成新范式------不是谁替代谁，而是不同场景用不同工具：云端高并发用自回归，本地低延迟用扩散，就像高速公路和城市街道各有各的最优解。

总结

DiffusionGemma 把图像生成的扩散机制引入文本生成，通过并行去噪替代逐 token 串行生成，在本地推理场景实现了 4 倍提速。它的双向注意力和自我修正能力是自回归模型所不具备的，但在复杂推理上仍有短板。作为 Google 开源（Apache 2.0）的实验性模型，它为"非自回归文本生成"这个方向提供了第一个高质量的开箱验证。对普通开发者来说，如果你需要在本地跑一个快而不贵的文本模型，DiffusionGemma 值得试试；如果你需要最强推理能力，现阶段还是老老实实用自回归模型。