极速并行文本生成：谷歌开源 DiffusionGemma 扩散大模型

Google DeepMind 于2026 年 6 月 10 日正式开源实验性文本扩散大模型 DiffusionGemma，主打极速并行文本生成。

(图源网络，侵删)

2026 年 6 月，Google DeepMind 正式对外开源实验性大模型DiffusionGemma，首次把成熟离散文本扩散方案以 Apache 2.0 协议完整开放权重，打破长久以来 LLM 依赖逐 Token 自回归生成的固有模式，凭借并行去噪机制实现最高 4 倍的推理提速，成为本地低延迟 AI 赛道的重磅技术突破。

告别 "打字机"，用扩散印刷整段文本

(图源网络，侵删)

市面上绝大多数大模型（Gemma 标准版、GPT 系列等）都是自回归架构：像打字机一样，一次只输出一个 Token，写完一个才能预测下一个，早期文字出错还会一路传导、污染全文，GPU 算力也常因串行等待闲置，单用户本地运行效率很低。

DiffusionGemma 移植了图像生成成熟的扩散逻辑，思路如同批量印刷排版：

1、先铺开一张256 Token 的空白噪声画布；

2、多轮全局并行迭代去噪，用双向注意力同步修正画布内所有文字，高置信度内容先行锁定，反向优化模糊语句；

3、画布收敛后一次性输出完整段落，全程并行计算最大化压榨 GPU 算力。

编码器依旧采用自回归缓存用户提示词，兼顾上下文理解，解码器全权负责扩散生成，兼顾理解速度与输出效率。

核心硬件与架构参数

1、MoE 稀疏专家架构

整体总参数量 26B，内置 128 个专家模块，推理时仅激活 8 个、有效运算参数仅 3.8B，大参数量保障基础理解力，稀疏设计压低内存占用，平衡性能与部署门槛。

2、显存适配门槛友好

4bit 量化版本仅需 18GB 显存，RTX 4090、5090 这类消费级显卡即可本地完整运行；企业级 H100、DGX 工作站、RTX PRO 专业卡均完成全栈优化，原生支持 NVFP4 压缩加速。

3、炸裂的生成速度

H100 单卡：1000+ token/s

RTX 5090 消费卡：700+ token/s

同等硬件条件下，吞吐速度稳定达到传统自回归 Gemma 模型的 4 倍，延迟大幅降低，完美适配单人实时交互场景。

4、附加能力

支持文本、图片、短视频多模态输入统一输出文本；上下文窗口最高拓展至 256K Token，依靠块自回归技术突破单块 256Token 画布限制；HumanEval 代码得分 89.6%，代码填空、Markdown 排版、表格生成等结构化任务表现突出。

清晰的优劣取舍与适用场景

(图源网络，侵删)

谷歌官方明确定位 DiffusionGemma 为实验提速型模型，存在明确能力取舍：

1、优势场景

低延迟本地工具、代码实时补全、快速文案草稿、即时翻译、表格 / 公式结构化填充、离线桌面 AI 助手；并行全局纠错的特性，很适合需要整体排版修正的内容创作。

2、短板局限

长文深度叙事、复杂数理推理、高精度专业论文写作能力弱于标准版自回归 Gemma 4；高并发云端批量服务场景中，速度优势会被批量调度抵消，此时传统自回归模型性价比更高。

算力支撑决定运行体验

想要流畅跑满 DiffusionGemma 的极速性能，充足稳定的 GPU 算力是核心前提。个人设备显卡显存、算力有限，多卡集群搭建又存在极高硬件与运维成本。

算家云提供高性价比 RTX 5090、RTX 4090、A100 等弹性算力租赁服务，一键开通即用，无需自备硬件、省去环境配置调试，自有镜像社区一键轻松部署各类 AI 模型，无论是开发者调试验证、批量量化微调，还是长时间离线推理运行，都能稳定释放模型并行生成速度，大幅降低文本扩散大模型的上手门槛。

行业价值与开源意义

**1、谷歌首个商用友好开源文本扩散大模型：**Apache 2.0 协议允许企业自由修改、商用分发，给全球学术界、开发者一套可复现、可落地的非自回归 LLM 基线；

**2、开辟 LLM 双线发展格局：**自回归主打高精长文本，扩散架构主打极速低延迟，补齐本地离线 AI 的性能短板；

**3、验证扩散文本生成规模化可行性：**后续有望带动更多开源模型跟进并行生成路线，推动端侧、边缘 AI 整体体验升级。

简单来说，DiffusionGemma 并非用来替代高精度自回归大模型，而是补齐高速实时 AI 的重要拼图。