极速并行文本生成:谷歌开源 DiffusionGemma 扩散大模型

Google DeepMind 于2026 年 6 月 10 日正式开源实验性文本扩散大模型 DiffusionGemma,主打极速并行文本生成。

(图源网络,侵删)

2026 年 6 月,Google DeepMind 正式对外开源实验性大模型DiffusionGemma,首次把成熟离散文本扩散方案以 Apache 2.0 协议完整开放权重,打破长久以来 LLM 依赖逐 Token 自回归生成的固有模式,凭借并行去噪机制实现最高 4 倍的推理提速,成为本地低延迟 AI 赛道的重磅技术突破。

告别 "打字机",用扩散印刷整段文本

(图源网络,侵删)

市面上绝大多数大模型(Gemma 标准版、GPT 系列等)都是自回归架构:像打字机一样,一次只输出一个 Token,写完一个才能预测下一个,早期文字出错还会一路传导、污染全文,GPU 算力也常因串行等待闲置,单用户本地运行效率很低。

DiffusionGemma 移植了图像生成成熟的扩散逻辑,思路如同批量印刷排版:

1、先铺开一张256 Token 的空白噪声画布;

2、多轮全局并行迭代去噪,用双向注意力同步修正画布内所有文字,高置信度内容先行锁定,反向优化模糊语句;

3、画布收敛后一次性输出完整段落,全程并行计算最大化压榨 GPU 算力。

编码器依旧采用自回归缓存用户提示词,兼顾上下文理解,解码器全权负责扩散生成,兼顾理解速度与输出效率。

核心硬件与架构参数

1、MoE 稀疏专家架构

整体总参数量 26B,内置 128 个专家模块,推理时仅激活 8 个、有效运算参数仅 3.8B,大参数量保障基础理解力,稀疏设计压低内存占用,平衡性能与部署门槛。

2、显存适配门槛友好

4bit 量化版本仅需 18GB 显存,RTX 4090、5090 这类消费级显卡即可本地完整运行;企业级 H100、DGX 工作站、RTX PRO 专业卡均完成全栈优化,原生支持 NVFP4 压缩加速。

3、炸裂的生成速度

H100 单卡:1000+ token/s

RTX 5090 消费卡:700+ token/s

同等硬件条件下,吞吐速度稳定达到传统自回归 Gemma 模型的 4 倍,延迟大幅降低,完美适配单人实时交互场景。

4、附加能力

支持文本、图片、短视频多模态输入统一输出文本;上下文窗口最高拓展至 256K Token,依靠块自回归技术突破单块 256Token 画布限制;HumanEval 代码得分 89.6%,代码填空、Markdown 排版、表格生成等结构化任务表现突出。

清晰的优劣取舍与适用场景

(图源网络,侵删)

谷歌官方明确定位 DiffusionGemma 为实验提速型模型,存在明确能力取舍:

1、优势场景

低延迟本地工具、代码实时补全、快速文案草稿、即时翻译、表格 / 公式结构化填充、离线桌面 AI 助手;并行全局纠错的特性,很适合需要整体排版修正的内容创作。

2、短板局限

长文深度叙事、复杂数理推理、高精度专业论文写作能力弱于标准版自回归 Gemma 4;高并发云端批量服务场景中,速度优势会被批量调度抵消,此时传统自回归模型性价比更高。

算力支撑决定运行体验

想要流畅跑满 DiffusionGemma 的极速性能,充足稳定的 GPU 算力是核心前提。个人设备显卡显存、算力有限,多卡集群搭建又存在极高硬件与运维成本。

算家云提供高性价比 RTX 5090、RTX 4090、A100 等弹性算力租赁服务,一键开通即用,无需自备硬件、省去环境配置调试,自有镜像社区一键轻松部署各类 AI 模型,无论是开发者调试验证、批量量化微调,还是长时间离线推理运行,都能稳定释放模型并行生成速度,大幅降低文本扩散大模型的上手门槛。

行业价值与开源意义

**1、谷歌首个商用友好开源文本扩散大模型:**Apache 2.0 协议允许企业自由修改、商用分发,给全球学术界、开发者一套可复现、可落地的非自回归 LLM 基线;

**2、开辟 LLM 双线发展格局:**自回归主打高精长文本,扩散架构主打极速低延迟,补齐本地离线 AI 的性能短板;

**3、验证扩散文本生成规模化可行性:**后续有望带动更多开源模型跟进并行生成路线,推动端侧、边缘 AI 整体体验升级。

简单来说,DiffusionGemma 并非用来替代高精度自回归大模型,而是补齐高速实时 AI 的重要拼图。

相关推荐
身如柳絮随风扬1 小时前
从零构建 Agent Skill:Cursor 与 Claude Code 完全集成指南
ai
qq_411262422 小时前
四博智联AI开发宝典(2/3):后端部署、OTA与AT+MCP接入
人工智能·ai·四博
财经资讯数据_灵砚智能2 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月12日
人工智能·python·ai·信息可视化·自然语言处理·ai编程·灵砚智能
一锅炖出任易仙2 小时前
创梦汤锅学习日记day32
学习·ai·游戏引擎
qq_411262422 小时前
AI-01开发板编译、烧录与双配网模式说明
人工智能·ai·esp32-c2·四博
Tbisnic3 小时前
AI大模型学习第十二天:Coze工作流与智能体开发
人工智能·python·ai·大模型·智能体·coze
摸鱼同学3 小时前
17-Codex 高级工作流:Subagent、Worktree、多模型路由
ai·agent·codex
金融RPA机器人丨实在智能3 小时前
跨境库存Agent测评:开源产品无法动态备货?实在Agent以ISSUT技术重塑跨境电商供需链
人工智能·ai·开源
XLYcmy3 小时前
一个基于 Python 的轻量级 LLM(大语言模型)API 客户端程序:从API交互到LLM应用架构
服务器·python·ai·llm·prompt·agent·token