引言
昨天,Google DeepMind 发布了一个"不太寻常"的开源模型------DiffusionGemma。它用的不是 GPT、Gemini 那套"逐字生成"的自回归路线,而是把图像生成领域大红大紫的扩散模型搬到了文本生成上。结果?在本地推理场景下,速度比传统大模型快了整整 4 倍。这个思路乍听有点反直觉------扩散模型不是用来画图的吗?它怎么写文字?写出来的东西靠谱吗?今天就来拆解一下。
问题背景:逐字生成的"排队困境"
当前几乎所有大语言模型(GPT、Claude、Gemini、DeepSeek......)都采用自回归生成:从左到右,一个 token 接一个 token 地"吐"出内容。这就像在超市排队结账------一次只能服务一个人,后面的人再急也得等。
这种逐 token 串行生成的方式,在云端高并发场景下不是大问题,因为可以批量处理多个请求来摊薄延迟。但在本地推理场景(你的笔记本、单块 GPU)上,串行生成就成了性能瓶颈------内存带宽利用率低,大量计算单元在等前一个 token 算完才能开工。
更麻烦的是,自回归模型一旦"说错话"就没法回头。它只能往后继续编,前面的错误会像多米诺骨牌一样影响后续输出。你一定见过大模型"一本正经地胡说八道"------这就是逐字生成、缺乏全局视野的代价。
技术原理:从噪声中"雕刻"文字
DiffusionGemma 的核心思路,是从图像生成领域借鉴来的扩散机制。理解它只需要三步:
第一步:给一段完美文本加噪。 训练时,模型看到的不是"从空白开始写",而是一段完整的文本被逐步"糊化"------就像一张清晰照片被反复涂上毛玻璃滤镜,最终变成纯噪声。
第二步:学会从噪声还原文本。 模型的任务就是反向操作:给它一堆乱码般的噪声,它逐步"去噪",把清晰文字还原出来。这跟雕塑家从一块石头里"凿出"雕像的过程很像------每次去掉一点多余的部分,最终呈现出精确的形态。
第三步:并行生成,一次成型。 这是关键区别。自回归模型是"一个字一个字写",扩散模型是"一整段一起打磨"。DiffusionGemma 每次前向传播并行处理 256 个 token,多轮去噪后同时输出整段内容。
打个比方:自回归生成像手写一封信,必须从第一个字写到最后一字;扩散生成像冲印照片,整张底片同时在显影液中浮现------虽然需要反复浸泡几次,但画面是整体浮现的。
具体参数
DiffusionGemma 采用 26B 参数的 MoE(混合专家)架构,但推理时只激活 3.8B 参数,量化后可在 18GB 显存的消费级 GPU 上运行。实测速度:单块 H100 达到每秒 1000+ token,RTX 5090 上 700+ token/s,DGX Station 上更是跑到 2000 token/s------大约是同等条件下自回归模型的 4 倍。
此外,由于扩散模型天生具备"双向注意力"(同时看到上下文两侧),它还能在生成过程中自我修正------发现前面"写歪了",可以在后续去噪轮次中纠正过来,而不像自回归模型只能将错就错。
个人观点:不是替代者,而是补充者
DiffusionGemma 让人兴奋,但需要清醒认识它的定位。
它解决的核心问题是本地推理的效率困境。 随着模型能力越来越强,越来越多的开发者希望在本地设备上跑模型------隐私、成本、延迟都是动因。但本地场景受限于显存带宽,自回归模型的串行生成天然吃亏。扩散模型的并行生成恰好补上了这块短板,4 倍提速不是花架子,而是实打实的工程收益。
但它目前还不是"六边形战士"。 从基准测试看,DiffusionGemma 在数学推理(AIME 2025 得分 23.3%)上表现不错,甚至超过了部分自回归模型;但在复杂科学推理(GPQA Diamond 40.4% vs 56.5%)和综合推理(BIG-Bench Extra Hard 15.0% vs 21.0%)上,与主流自回归模型仍有明显差距。Google 自己也明确说:这是实验性模型,生产环境仍建议用标准 Gemma 4。
更值得关注的是方向本身。 扩散模型在图像领域已经是绝对主流,如今杀入文本领域,本质上是在探索"非自回归文本生成"的可行性。如果后续迭代能补上推理短板,我们可能会看到一条与 GPT 路线完全不同的文本生成新范式------不是谁替代谁,而是不同场景用不同工具:云端高并发用自回归,本地低延迟用扩散,就像高速公路和城市街道各有各的最优解。
总结
DiffusionGemma 把图像生成的扩散机制引入文本生成,通过并行去噪替代逐 token 串行生成,在本地推理场景实现了 4 倍提速。它的双向注意力和自我修正能力是自回归模型所不具备的,但在复杂推理上仍有短板。作为 Google 开源(Apache 2.0)的实验性模型,它为"非自回归文本生成"这个方向提供了第一个高质量的开箱验证。对普通开发者来说,如果你需要在本地跑一个快而不贵的文本模型,DiffusionGemma 值得试试;如果你需要最强推理能力,现阶段还是老老实实用自回归模型。