DiffusionGemma:扩散模型从"画图"走向"写文章",文本生成速度提升4倍

引言

昨天,Google DeepMind 发布了一个"不太寻常"的开源模型------DiffusionGemma。它用的不是 GPT、Gemini 那套"逐字生成"的自回归路线,而是把图像生成领域大红大紫的扩散模型搬到了文本生成上。结果?在本地推理场景下,速度比传统大模型快了整整 4 倍。这个思路乍听有点反直觉------扩散模型不是用来画图的吗?它怎么写文字?写出来的东西靠谱吗?今天就来拆解一下。

问题背景:逐字生成的"排队困境"

当前几乎所有大语言模型(GPT、Claude、Gemini、DeepSeek......)都采用自回归生成:从左到右,一个 token 接一个 token 地"吐"出内容。这就像在超市排队结账------一次只能服务一个人,后面的人再急也得等。

这种逐 token 串行生成的方式,在云端高并发场景下不是大问题,因为可以批量处理多个请求来摊薄延迟。但在本地推理场景(你的笔记本、单块 GPU)上,串行生成就成了性能瓶颈------内存带宽利用率低,大量计算单元在等前一个 token 算完才能开工。

更麻烦的是,自回归模型一旦"说错话"就没法回头。它只能往后继续编,前面的错误会像多米诺骨牌一样影响后续输出。你一定见过大模型"一本正经地胡说八道"------这就是逐字生成、缺乏全局视野的代价。

技术原理:从噪声中"雕刻"文字

DiffusionGemma 的核心思路,是从图像生成领域借鉴来的扩散机制。理解它只需要三步:

第一步:给一段完美文本加噪。 训练时,模型看到的不是"从空白开始写",而是一段完整的文本被逐步"糊化"------就像一张清晰照片被反复涂上毛玻璃滤镜,最终变成纯噪声。

第二步:学会从噪声还原文本。 模型的任务就是反向操作:给它一堆乱码般的噪声,它逐步"去噪",把清晰文字还原出来。这跟雕塑家从一块石头里"凿出"雕像的过程很像------每次去掉一点多余的部分,最终呈现出精确的形态。

第三步:并行生成,一次成型。 这是关键区别。自回归模型是"一个字一个字写",扩散模型是"一整段一起打磨"。DiffusionGemma 每次前向传播并行处理 256 个 token,多轮去噪后同时输出整段内容。

打个比方:自回归生成像手写一封信,必须从第一个字写到最后一字;扩散生成像冲印照片,整张底片同时在显影液中浮现------虽然需要反复浸泡几次,但画面是整体浮现的。

具体参数

DiffusionGemma 采用 26B 参数的 MoE(混合专家)架构,但推理时只激活 3.8B 参数,量化后可在 18GB 显存的消费级 GPU 上运行。实测速度:单块 H100 达到每秒 1000+ token,RTX 5090 上 700+ token/s,DGX Station 上更是跑到 2000 token/s------大约是同等条件下自回归模型的 4 倍。

此外,由于扩散模型天生具备"双向注意力"(同时看到上下文两侧),它还能在生成过程中自我修正------发现前面"写歪了",可以在后续去噪轮次中纠正过来,而不像自回归模型只能将错就错。

个人观点:不是替代者,而是补充者

DiffusionGemma 让人兴奋,但需要清醒认识它的定位。

它解决的核心问题是本地推理的效率困境。 随着模型能力越来越强,越来越多的开发者希望在本地设备上跑模型------隐私、成本、延迟都是动因。但本地场景受限于显存带宽,自回归模型的串行生成天然吃亏。扩散模型的并行生成恰好补上了这块短板,4 倍提速不是花架子,而是实打实的工程收益。

但它目前还不是"六边形战士"。 从基准测试看,DiffusionGemma 在数学推理(AIME 2025 得分 23.3%)上表现不错,甚至超过了部分自回归模型;但在复杂科学推理(GPQA Diamond 40.4% vs 56.5%)和综合推理(BIG-Bench Extra Hard 15.0% vs 21.0%)上,与主流自回归模型仍有明显差距。Google 自己也明确说:这是实验性模型,生产环境仍建议用标准 Gemma 4。

更值得关注的是方向本身。 扩散模型在图像领域已经是绝对主流,如今杀入文本领域,本质上是在探索"非自回归文本生成"的可行性。如果后续迭代能补上推理短板,我们可能会看到一条与 GPT 路线完全不同的文本生成新范式------不是谁替代谁,而是不同场景用不同工具:云端高并发用自回归,本地低延迟用扩散,就像高速公路和城市街道各有各的最优解。

总结

DiffusionGemma 把图像生成的扩散机制引入文本生成,通过并行去噪替代逐 token 串行生成,在本地推理场景实现了 4 倍提速。它的双向注意力和自我修正能力是自回归模型所不具备的,但在复杂推理上仍有短板。作为 Google 开源(Apache 2.0)的实验性模型,它为"非自回归文本生成"这个方向提供了第一个高质量的开箱验证。对普通开发者来说,如果你需要在本地跑一个快而不贵的文本模型,DiffusionGemma 值得试试;如果你需要最强推理能力,现阶段还是老老实实用自回归模型。

相关推荐
阿里云大数据AI技术40 分钟前
Agentic Memory Extension 支持对接主流Agent - 适用于 Claude Code、CodeX等
人工智能·agent
我唔知啊1 小时前
不是让 AI 写代码,我是在指挥 AI 干活:一套打磨出来的 AI 编程工作流
人工智能
ZzT1 小时前
在 GitHub 上 @一下 claude,它自己把 issue 改成 PR
人工智能·开源
不加辣椒1 小时前
第15章 上下文窗口管理与长文本策略
人工智能
牛奶2 小时前
AI 能赚钱了——但赚的不是你
人工智能·ai编程·nvidia
凌杰3 小时前
AI 学习笔记:研究方法的演变
人工智能
半盏药香3 小时前
由于jinja2的starlette版本过高引发的问题:500 Server Error TypeError: unhashable type: 'dict'
人工智能
阿里云大数据AI技术3 小时前
MiniMax M3、Kimi K2.7 Code来啦!PAI已支持一键部署,开源前沿触手可及
人工智能·agent
百度Geek说3 小时前
AI Coding 的底层框架:一切优化都是在对抗熵增
人工智能
Java研究者3 小时前
AI智能体研发 | 什么是OpenAI API协议
人工智能·大模型·openai·api·agent·智能体