谷歌开源首个扩散大语言模型——DiffusionGemma

许可证 : Apache 2.0 | 作者 : Google DeepMind

DiffusionGemma 是由 Google DeepMind 构建的生成模型。基于 26B A4B 专家混合（MoE）Gemma 4 架构，DiffusionGemma 使用离散扩散生成 token。这个开放权重的模型是多模态的，能够处理文本、图像和视频输入以生成文本输出。

基于 MoE 基础构建，DiffusionGemma 旨在提高生成速度（每秒 token 数），同时保持在各种硬件环境中的可部署性。DiffusionGemma 建立在 Gemma 4 的架构和能力进步之上，引入了几个核心特性：

离散文本扩散 -- 从逐个 token 的自回归转变为块自回归多画布采样。它通过并行迭代去噪 token 块（一个"画布"）来生成文本，显著提高解码速度。
多模态输入处理 -- 处理交错的文本、图像（支持可变宽高比和分辨率）和视频输入以生成文本输出。
编码器-解码器架构 -- 使用自回归编码器处理和缓存提示上下文，与在生成画布上应用双向注意力的解码器配对。
专家混合（MoE）效率 -- 利用稀疏 MoE 设计（128 个专家中激活 8 个）提供强大的推理能力，同时保持适合本地执行的低内存占用。
思考模式（推理） -- 设计为高度能力的推理器，具有可配置的思考模式。
针对小批量推理优化 -- 专门为单个强大加速器上的低延迟、高速生成而设计。
原生系统提示支持 -- 与 Gemma 4 一样，它支持更新 system 角色，实现更结构化和可控的对话。

模型概述

DiffusionGemma 旨在减少标准因果语言模型中的序列瓶颈。它采用专门为推理速度优化的编码器-解码器架构。

编码器以预填充方式运行，处理初始提示并生成 KV 缓存。解码器随后利用双向注意力处理输入块（一个"画布"）的令牌，通过交叉注意力访问缓存的上下文。

在推理过程中，DiffusionGemma 利用多画布采样。模型不是一次生成一个令牌，而是使用扩散采样器迭代地对整个令牌块进行去噪。一旦画布完全去噪，它就会被编码器处理并附加到 KV 缓存中，之后模型生成下一个画布。这种块自回归方法有助于以更高的速度生成文本。

DiffusionGemma

总参数量	25.2B
激活参数量	3.8B
层数	30
滑动窗口	1024 个令牌
上下文长度	最高 256K 令牌
画布长度	256
词汇表大小	262K
专家数量	8 个激活 / 128 个总计和 1 个共享
支持模态	文本、图像
视觉编码器参数量	~550M

基准测试结果

这些模型在大量不同的数据集和指标上进行了评估，以覆盖文本生成的不同方面。表格中标记的评估结果是针对指令调优模型，使用推荐的熵界（EB）采样器（参见下文的最佳实践部分）。

基准测试	DiffusionGemma 26B A4B	Gemma 4 26B A4B
MMLU Pro	77.6%	82.6%
AIME 2026 无工具	69.1%	88.3%
LiveCodeBench v6	69.1%	77.1%
Codeforces ELO	1429	1718
GPQA Diamond	73.2%	82.3%
Tau2（3次平均）	56.2%	68.2%
HLE 无工具	11.0%	8.7%
HLE 带搜索	11.9%	17.2%
BigBench Extra Hard	47.6%	64.8%
MMMLU	81.5%	86.3%
视觉
MMMU Pro	54.3%	73.8%
OmniDocBench 1.5（平均编辑距离，越低越好）	0.319	0.149
MATH-Vision	70.5%	82.4%
MedXPertQA MM	49.0%	58.1%
长上下文
MRCR v2 8 needle 128k（平均）	32.0%	44.1%

核心能力

DiffusionGemma 能够处理广泛的文本和视觉任务。其主要能力包括：

高速生成：通过扩散采样并行去噪 256 个 token，每次前向传播生成 15-20 个 token，实现了低延迟，在低批量大小设置（H100，FP8）下，每个用户的生成速度可超过每秒 1100 个 token。
自适应推理时间计算：对于较简单的提示和结构化任务（如代码），需要更少的去噪步骤，从而能够根据任务复杂度动态调整每秒生成的 token 数。
思考模式：内置的推理模式，让模型在回答前进行逐步思考。
长上下文：支持高达 256K token 的上下文窗口。
图像理解：包括目标检测、文档/PDF 解析、屏幕和用户界面理解、图表理解、OCR（支持多语言）、手写识别以及指向识别。图像可以按可变宽高比和分辨率进行处理。
视频理解：通过处理一系列帧来分析和描述视频内容。
交错式多模态输入：可以在单个提示中混合图像、视频和文本，以支持需要大量上下文的推理任务。
函数调用：原生支持结构化工具使用，可实现智能体工作流。
编码与推理：能够进行代码生成、补全以及逐步的逻辑推理。
多语言支持：开箱即用支持 35 种以上语言，预训练数据涵盖 140 多种语言。

快速上手

你可以使用最新版本的 Transformers 来运行所有 Gemma 4 模型。首先，在你的环境中安装必要的依赖：

pip install -U transformers torch accelerate

安装完成后，你可以通过以下代码加载模型：

python 复制代码

from transformers import DiffusionGemmaForBlockDiffusion, AutoProcessor

MODEL_ID = "google/diffusiongemma-26B-A4B-it"

# 加载模型
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = DiffusionGemmaForBlockDiffusion.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

模型加载完成后，即可开始生成输出：

python 复制代码

# 提示词
message = [
    {"role": "user", "content": "Why is the sky blue?"}
]

# 处理输入
input_ids = processor.apply_chat_template(
    message,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)
output = model.generate(**input_ids, max_new_tokens=512)

# 解析输出
text = processor.decode(output[0], skip_special_tokens=False)

最佳实践

为获得最佳性能，请使用以下配置和最佳实践：

1. 扩散采样设置

在所有用例中使用以下标准化采样配置：

方法：采用熵约束去噪与自适应停止的扩散采样。
采样配置 ：
- 最大去噪步数 = 48
- 温度调度（用于 logit 塑形）：从 0.8 线性衰减至 0.4
- Token 选择：每一步中，采样器选择熵最低的 token，使其互信息边界保持在熵约束 0.1 以下
- Token 重噪化：采样器对未选中的 token 进行完全重噪化
自适应停止 ：当以下两个条件同时满足时，采样提前终止：
- 置信预测：画布上的平均模型熵低于熵阈值 0.005
- 稳定预测：最高概率的 token 预测在两个连续去噪步骤中保持不变

2. 思考模式配置

与 Gemma 4 模型类似，我们使用标准的系统、助手和用户角色。为正确管理思考过程，请使用以下控制 token：

触发思考 ：通过在系统提示开头包含 <|think|> token 来启用思考。要禁用思考，请移除该 token（注意：空的思考通道仍可能被发出）。
标准生成 ：启用思考后，模型将输出其内部推理，然后使用以下结构输出最终答案：
<|channel>thought\n $内部推理$ <channel|>。
禁用思考行为 ：如果禁用思考，模型仍会生成标签，但思考块为空：
<|channel>thought\n<channel|> $最终答案$ 。

$!Note$
注意，许多库（如 transformers）会为你处理聊天模板的复杂性。

3. 多轮对话

历史中不包含思考内容 ：在多轮对话中，历史模型输出应仅包含最终响应。在下一轮用户输入开始之前，不得添加 前几轮模型回合的思考内容。

4. 模态顺序

为获得多模态输入的最佳性能，请将图像内容放在提示词中文本的前面。

5. 可变图像分辨率

除了可变宽高比之外，DiffusionGemma 还通过可配置的视觉 token 预算支持可变图像分辨率，该预算控制用于表示图像的 token 数量。较高的 token 预算能保留更多视觉细节，但会增加计算成本；而较低的预算则可在不需要细粒度理解的任务中实现更快的推理。

支持的 token 预算为：70 、140 、280 、560 和 1120 。
- 对于分类、图像描述或视频理解等任务，使用较低预算，因为更快的推理和处理更多帧比细粒度细节更重要。
- 对于 OCR、文档解析或阅读小文本等任务，使用较高预算。

6. 视频长度

所有模型都支持图像输入，并可以将视频作为帧序列处理。假设图像以每秒一帧的速度处理，视频最长支持 60 秒。

模型数据

训练数据集

我们的预训练数据集是一个大规模、多样化的数据集合，涵盖广泛的领域和模态，包括网页文档、代码、图像、音频，数据截止日期为 2025 年 1 月。以下是关键组成部分：

网页文档：多样化的网页文本集合确保模型接触到广泛的语言风格、主题和词汇。训练数据集包含超过 140 种语言的内容。
代码：让模型接触代码有助于其学习编程语言的语法和模式，从而提升生成代码和理解代码相关问题的能力。
数学：在数学文本上进行训练有助于模型学习逻辑推理、符号表示，并处理数学查询。
图像：广泛的图像数据使模型能够执行图像分析和视觉数据提取任务。

这些多样化数据源的组合对于训练一个能够处理各种不同任务和数据格式的强大多模态模型至关重要。

数据预处理

以下是应用于训练数据的关键数据清洗和过滤方法：

CSAM 过滤：在数据准备的多个阶段应用了严格的 CSAM（儿童性虐待材料）过滤，以确保排除有害和非法内容。
敏感数据过滤：作为使 Gemma 预训练模型安全可靠的一部分，使用了自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
其他方法 ：根据我们的政策进行基于内容质量和安全性的过滤。

模型训练所用数据及数据处理方式

训练数据集

网页文档：多样化的网页文本集合确保模型接触到广泛的语言风格、主题和词汇。训练数据集包含超过 140 种语言的内容。
代码：让模型接触代码有助于其学习编程语言的语法和模式，从而提升生成代码和理解代码相关问题的能力。
数学：基于数学文本的训练有助于模型学习逻辑推理、符号表示，并处理数学查询。
图像：广泛的图像数据使模型能够执行图像分析和视觉数据提取任务。

这些多样化数据源的组合对于训练一个能够处理各种不同任务和数据格式的强大多模态模型至关重要。

数据预处理

以下是应用于训练数据的关键数据清洗和过滤方法：

CSAM 过滤：在数据准备过程的多个阶段应用了严格的 CSAM（儿童性虐待材料）过滤，以确保排除有害和非法内容。
敏感数据过滤：作为使 Gemma 预训练模型安全可靠的一部分，采用了自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
其他方法 ：根据我们的政策进行基于内容质量和安全性的过滤。

伦理与安全

随着开放模型成为企业基础设施的核心，来源与安全性至关重要。DiffusionGemma 由 Google DeepMind 开发，经历了与我们专有 Gemini 模型同样严格的安全评估。

评估方法

DiffusionGemma 是与内部安全及负责任 AI 团队合作开发的。我们进行了一系列自动化及人工评估，以帮助提升模型安全性。这些评估遵循 Google 的 AI 原则以及安全政策，旨在防止我们的生成式 AI 模型生成有害内容，包括：

与儿童性虐待材料和剥削相关的内容
危险内容（例如，宣扬自杀，或指导可能导致现实世界伤害的活动）
露骨色情内容
仇恨言论（例如，非人化受保护群体成员）
骚扰（例如，鼓励对他人实施暴力）

评估结果

在所有安全测试领域，我们观察到相对于前几代 Gemma 模型，所有内容安全类别均有显著改进。总体而言，DiffusionGemma 与 Gemma 4 模型一样，在提升安全性的同时保持了较低的无理由拒绝率，显著优于 Gemma 3 和 3n 模型。所有测试均有意在不使用安全过滤器的情况下进行，以评估模型的原始能力和基线行为。在文本到文本和图像到文本任务中，以及所有模型规模下，模型产生的策略违规行为极少，并且相比之前的 Gemma 模型显示出显著改进。

使用与限制

用户应注意这些模型存在一定的局限性。

预期用途

多模态模型（能够处理视觉、语言和/或音频）在各行各业和领域具有广泛的应用。以下潜在用途列表并不详尽。此列表的目的是提供上下文信息，说明模型创建者在模型训练和开发过程中考虑的可能用例。

内容创作与通信
- 文本生成：生成创意文本格式，如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人与对话式 AI：为客服、虚拟助手或交互式应用提供对话界面支持。
- 文本摘要：生成文本语料库、研究论文或报告的简洁摘要。
- 图像数据提取：提取、解释和总结视觉数据以用于文本通信。
研究与教育
- 自然语言处理（NLP）与 VLM 研究：作为研究人员实验 VLM 和 NLP 技术、开发算法以及推动该领域进步的基础。
- 语言学习工具：支持交互式语言学习体验，辅助语法纠正或提供写作练习。
- 知识探索：通过生成摘要或回答特定主题的问题，帮助研究人员探索大量文本。

局限性

训练数据
- 训练数据的质量和多样性显著影响模型的能力。训练数据中的偏差或空白可能导致模型响应的局限性。
- 训练数据集的规模决定了模型能够有效处理的主题领域。
上下文与任务复杂度
- 模型在可以通过清晰提示和指令来定义的任务上表现良好。开放式或高度复杂的任务可能具有挑战性。
- 模型的性能可能受提供的上下文量影响（在达到某个点之前，更长的上下文通常能带来更好的输出）。
语言歧义与细微差别
- 自然语言本质上是复杂的。模型可能难以把握微妙的细微差别、讽刺或比喻性语言。
事实准确性
- 模型根据从训练数据集中学到的信息生成响应，但它们并非知识库。模型可能生成不正确或过时的事实陈述。
常识
- 模型依赖于语言中的统计模式。在某些情况下，它可能缺乏应用常识推理的能力。

伦理考量与风险

在创建开放的视觉-语言模型时，我们仔细考虑了以下方面：

偏见与公平性
- 在大规模真实世界文本和图像数据上训练的 VLM 可能反映训练材料中嵌入的社会文化偏见。如本模型卡所述，DiffusionGemma 经过了仔细审查、输入数据预处理和训练后评估，以帮助减轻这些偏见的风险。
虚假信息与滥用
- VLM 可能被滥用于生成虚假、误导或有害的文本。
- 我们提供了模型负责任使用的指南，请参阅负责任生成式 AI 工具包。
透明度与问责制
- 本模型卡总结了有关模型架构、能力、局限性和评估过程的详细信息。
- 一个负责任开发的开放模型提供了分享创新的机会，使 VLM 技术能够被 AI 生态系统中的开发者和研究人员所使用。

已识别的风险及缓解措施：

生成有害内容：内容安全的机制和指南至关重要。鼓励开发者根据其具体产品策略和应用用例，谨慎行事并实施适当的内容安全保障措施。
恶意滥用：技术限制以及开发者和最终用户教育有助于减轻 VLM 的恶意应用。我们提供了教育资源以及供用户举报滥用行为的报告机制。
隐私侵犯：模型训练所使用的数据经过了过滤，以移除某些个人信息和其他敏感数据。鼓励开发者通过隐私保护技术遵守隐私法规。
偏见的持续：建议在模型训练、微调及其他用例中，进行持续监控（使用评估指标、人工审核）并探索去偏见技术。

优势

在发布时，这是一个低延迟、高性能的开放视觉-语言模型，为开发者和对研究扩散语言模型感兴趣的人提供了一个极具吸引力的选择。与同等规模的模型相比，该模型从设计之初就致力于负责任的 AI 开发。