DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

TL;DR

2025 年 DeepSeek 提出的新模型 DeepSeek-V3.2，DeepSeek-V3.2 在多项推理基准上与 Kimi-k2-thinking 和 GPT-5 达到相近性能。同时，高算力版本 DeepSeek-V3.2-Speciale 的性能超越 GPT-5 ，并展现出与 Gemini-3.0-Pro 相当的推理能力，在 2025 年国际数学奥林匹克（IMO） 与 国际信息学奥林匹克（IOI） 中均达到了金牌水平。

Paper name

Paper Reading Note

Paper URL:

https://arxiv.org/pdf/2512.02556

Project URL:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2，提出了 DeepSeek 稀疏注意力机制（DSA），

Introduction

背景

虽然开源社区（MiniMax, 2025；MoonShot, 2025；Qwen, 2025；智谱AI, 2025）持续取得进展，但闭源商业模型（Anthropic, 2025b；DeepMind, 2025a；OpenAI, 2025）的性能提升轨迹呈现出明显更陡峭的增长趋势。结果是，二者并未趋同，反而在复杂任务上的差距不断拉大，闭源系统表现出愈发突出的优势。
本文识别出限制开源模型处理复杂任务的三大关键缺陷：
- 首先，在架构上，对 vanilla attention 的高度依赖严重制约了长序列场景中的计算效率。这一低效性既阻碍可扩展部署，也妨碍高质量的后训练过程。
- 其次，在资源分配方面，开源模型在后训练阶段投入的算力普遍不足，从而限制了其在高难度任务中的性能。
- 最后，在 AI agents 场景中，开源模型在泛化能力和指令遵循能力方面显著落后于闭源模型，因此在真实部署中效果欠佳。

本文方案

提出了 DeepSeek-V3.2，这是一款兼具高计算效率 与卓越推理与智能体能力的模型。DeepSeek-V3.2 的核心技术突破包括：

DeepSeek 稀疏注意力机制（DSA） ：

引入了 DSA，这是一种高效的注意力机制，能够在显著降低计算复杂度 的同时，保持模型在超长上下文场景下的性能。
可扩展的强化学习框架 ：

通过构建稳健的强化学习协议并扩大后训练计算规模，DeepSeek-V3.2 的表现可与 GPT-5 相媲美 。值得注意的是，高算力版本 DeepSeek-V3.2-Speciale 的性能超越 GPT-5 ，并展现出与 Gemini-3.0-Pro 相当的推理能力，在 2025 年国际数学奥林匹克（IMO） 与 国际信息学奥林匹克（IOI） 中均达到了金牌水平。
大规模智能体任务合成流水线 ：

为将推理能力融入工具使用场景，我们开发了一套全新的数据合成流水线，可系统性、规模化地产生训练数据。该方法支持可扩展的智能体后训练，并在复杂、交互式环境中显著提升模型的泛化能力与指令遵循的稳健性。

DeepSeek-V3.2 在多项推理基准上与 Kimi-k2-thinking 和 GPT-5 达到相近性能。此外，DeepSeek-V3.2 显著提升了开源模型的智能体能力，在 EvalSys (2025)、Li et al. (2025)、Luo et al. (2025) 提出的长尾智能体任务中表现优异。作为一种高度成本效率的智能体方案，DeepSeek-V3.2 在大幅降低成本的前提下，有效缩小了开源模型与前沿闭源模型之间的性能差距。
值得注意的是，为了推动开源模型在推理领域达到新高度，我们放宽了序列长度限制，开发了 DeepSeek-V3.2-Speciale。其性能已与领先的闭源系统 Gemini-3.0-Pro（DeepMind, 2025b）达到同一水平，并在 IOI 2025、ICPC 世界总决赛 2025、IMO 2025、CMO 2025 中均展现出金牌级表现。

Methods

2. DeepSeek-V3.2 架构

2.1 DeepSeek 稀疏注意力

DeepSeek-V3.2 采用与 DeepSeek-V3.2-Exp 完全相同的架构。与上一代版本 DeepSeek-V3.1 的最终版 DeepSeek-V3.1-Terminus 相比，DeepSeek-V3.2 在架构上的唯一改动 ，就是在持续训练（continued training）的过程中引入了 DeepSeek Sparse Attention（DSA）。

DSA 原型（Prototype of DSA）

DSA 的原型主要由两个组件构成：

lightning indexer（闪电索引器）
fine-grained token selection mechanism（细粒度 token 选择机制）

Lightning indexer 计算查询 token ht∈Rdh_t \in \mathbb{R}^dht∈Rd 与其之前的某个 token hs∈Rdh_s \in \mathbb{R}^dhs∈Rd 之间的索引分数 It,sI_{t,s}It,s，用于决定该查询 token 要选择哪些历史 token：

It,s=∑j=1HIwt,jI⋅ReLU(qt,jI⋅ksI),(1) I_{t,s} = \sum_{j=1}^{H_I} w^I_{t,j} \cdot \text{ReLU}\big(q^I_{t,j} \cdot k^I_s\big), \tag{1} It,s=j=1∑HIwt,jI⋅ReLU(qt,jI⋅ksI),(1)

其中，HIH_IHI 表示 indexer head 的数量；
qt,jI∈RdIq^I_{t,j} \in \mathbb{R}^{d_I}qt,jI∈RdI 和 wt,jI∈Rw^I_{t,j} \in \mathbb{R}wt,jI∈R 由查询 token hth_tht 映射而来；

而 ksI∈RdIk^I_s \in \mathbb{R}^{d_I}ksI∈RdI 则由前序 token hsh_shs 映射而来。

我们选择 ReLU 作为激活函数，主要是出于吞吐量（throughput）的考虑。鉴于 lightning indexer 只包含少量的 heads，且可以用 FP8 来实现，其计算效率非常可观。

在为每个查询 token hth_tht 得到索引分数集合 It,s{I_{t,s}}It,s 之后，我们的细粒度 token 选择机制会仅检索对应于 Top-k 索引分数 的那些 key-value 条目 cs{c_s}cs。随后，通过在查询 token hth_tht 与这些稀疏选取的 key-value 条目 cs{c_s}cs 之间应用注意力机制，得到注意力输出 utu_tut：

ut=Attn(ht,{cs∣It,s∈Top-k(It,:)}).(2) u_t = \text{Attn}\Big(h_t, \{c_s \mid I_{t,s} \in \text{Top-k}(I_{t,:})\}\Big). \tag{2} ut=Attn(ht,{cs∣It,s∈Top-k(It,:)}).(2)

在 MLA 框架下实例化 DSA（Instantiate DSA Under MLA）

出于从 DeepSeek-V3.1-Terminus 持续训练（continued training）的考虑，我们在 DeepSeek-V3.2 中基于 MLA（Multi-Head Latent Attention，DeepSeek-AI, 2024）来实例化 DSA。

在 kernel 实现层面，为了获得较高的计算效率，每一个 key-value 条目都必须能够被多个 query 共享（Yuan et al., 2025）。因此，我们在 MLA 的 MQA 模式（Multi-Query Attention，Shazeer, 2019）下实现 DSA：在这种设置中，每个 latent 向量（即 MLA 中的 key-value 条目）会在同一个查询 token 的所有 query heads 之间共享。

基于 MLA 的 DSA 架构如图 2 所示。我们同时提供了 DeepSeek-V3.2 的开源实现，用于对这些细节做出明确说明。

2.1.1 持续预训练（Continued Pre-Training）

基于已扩展到 128K 上下文长度的 DeepSeek-V3.1-Terminus 基础检查点，我们进行持续预训练（continued pre-training），随后开展后训练（post-training），从而构建 DeepSeek-V3.2。DeepSeek-V3.2 的持续预训练由两个阶段组成。对于这两个阶段，训练数据的分布均与用于 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致。

Dense Warm-up 阶段

我们首先进行一个短暂的 warm-up 阶段，用于初始化 lightning indexer。在该阶段中：

注意力仍保持稠密（dense attention）
除 lightning indexer 外的所有模型参数全部冻结

为了使 indexer 的输出与主注意力分布对齐，对于第 (t) 个 query token，我们首先对主注意力在所有 attention heads 上求和，并沿序列维度进行 L1 归一化，得到目标分布：

pt,:∈Rt. p_{t,:} \in \mathbb{R}^t. pt,:∈Rt.

基于 pt,:p_{t,:}pt,:，我们设定 indexer 的训练目标为 KL 散度损失：

LI=∑tDKL(pt,:∣∣Softmax(It,:)).(3) L_I = \sum_t \text{DKL}\left(p_{t,:} || \text{Softmax}(I_{t,:})\right). \tag{3} LI=t∑DKL(pt,:∣∣Softmax(It,:)).(3)

Warm-up 配置如下：

学习率：10−310^{-3}10−3
训练步数：1000
每步包含 16 条 128K tokens 的序列
总 token 数：2.1B

Sparse Training 阶段

在 indexer warm-up 之后，我们引入 细粒度 token 选择机制，并优化所有模型参数，使模型适应 DSA 的稀疏模式。

在此阶段，我们仍然将 indexer 输出与主注意力分布对齐，但只在 被选择的 token 集合 上进行：

St=s∣It,s∈Top-k(It,:). S_t = { s \mid I_{t,s} \in \text{Top-k}(I_{t,:}) }. St=s∣It,s∈Top-k(It,:).

损失函数为：

LI=∑tDKL!(pt,St;∣;Softmax(It,St)).(4) L_I = \sum_t \text{DKL}!\left(p_{t,S_t} ; |; \text{Softmax}(I_{t,S_t})\right). \tag{4} LI=t∑DKL!(pt,St;∣;Softmax(It,St)).(4)

需要特别指出的是：

我们将 indexer 的输入从计算图中 detach，以便独立优化
indexer 仅通过 LIL_ILI 获得训练信号
主模型 LMLMLM 仅根据语言建模损失进行优化

Sparse 阶段配置如下：

学习率：7.3×10−67.3\times 10^{-6}7.3×10−6
每个 query token 选择 2048 个 key-value tokens
训练步数：15000
每步包含 480 条 128K tokens 的序列
总 token 数：943.7B

2.2 性能一致性评估（Parity Evaluation）

标准基准测试（Standard Benchmark）

在 2025 年 9 月，我们在一系列覆盖多种能力的基准上评估 DeepSeek-V3.2-Exp，并与 DeepSeek-V3.1-Terminus 对比，结果显示其性能相近。

虽然 DeepSeek-V3.2-Exp 在长序列场景显著提升了计算效率，但在短上下文与长上下文任务中，其性能相较 DeepSeek-V3.1-Terminus 未出现明显下降。

人类偏好评估（Human Preference）

由于直接的人类偏好评估容易受到偏差影响，我们使用 ChatbotArena 作为间接框架来估计用户偏好。

DeepSeek-V3.1-Terminus 与 DeepSeek-V3.2-Exp 采用完全一致的后训练策略
2025 年 11 月 10 日的 Elo 评分显示二者表现非常接近

这表明尽管 V3.2-Exp 引入了稀疏注意力，但新模型的用户偏好表现与上一代保持一致。

长上下文评估（Long Context Eval）

DeepSeek-V3.2-Exp 发布后，多组独立团队使用未公开的新测试集进行了长上下文评估。

在典型基准 AA-LCR 中，DeepSeek-V3.2-Exp 在 reasoning 模式下 比 V3.1-Terminus 高 4 分
在 Fiction.liveBench 中，各项指标均稳定超越 V3.1-Terminus

这些证据表明：V3.2-Exp 的基础模型在长上下文任务上没有退化

2.3 推理成本（Inference Costs）

DSA 将主模型注意力的核心复杂度从 O(L2)O(L^2)O(L2) 降低为 O(Lk)O(Lk)O(Lk)

其中 k≪Lk \ll Lk≪L 为选取的 token 数量。

尽管 lightning indexer 本身仍然是 O(L2)O(L^2)O(L2)，但与 DeepSeek-V3.1-Terminus 中的 MLA 相比，其计算需求显著更低。

结合优化实现，DSA 在长上下文场景中带来了显著的端到端加速。

图 3 展示了 DeepSeek-V3.1-Terminus 与 DeepSeek-V3.2 在序列不同位置的 token 成本差异。该成本基于在 H800 GPU （租金为每 GPU 每小时 2 美元）上实际部署服务的基准测试所得。

对于短序列 prefilling，我们特别实现了一个 masked MHA 模式 来模拟 DSA，以在短上下文条件下获得更高效率。

3. 后训练（Post-Training）

在持续预训练结束后，我们进一步执行后训练，以得到最终的 DeepSeek-V3.2。DeepSeek-V3.2 的后训练仍采用与稀疏持续预训练阶段相同的稀疏注意力方式。对于 DeepSeek-V3.2，我们保留了与 DeepSeek-V3.2-Exp 完全一致的后训练流程，其中包括 专家蒸馏（specialist distillation） 与 混合强化学习训练（mixed RL training）。

专家蒸馏（Specialist Distillation）

针对每项任务，我们首先开发专门的模型，这些专家模型仅专注于特定领域，且全部基于相同的 DeepSeek-V3.2 预训练基座进行微调。除了写作任务和通用问答，我们的框架涵盖六个专业领域：

数学
编程
通用逻辑推理
通用智能体任务
智能体代码生成（agentic coding）
智能体搜索（agentic search）

所有这些领域均支持 思维模式（thinking mode） 与 非思维模式（non-thinking mode）。

每个专家均使用大规模 RL 计算进行训练。此外，我们采用不同模型为两类任务生成数据：

长链条推理（思维模式）
直接回答（非思维模式）

在专家模型训练完成后，我们利用它们生成领域特定的数据用于最终检查点。实验表明：
在蒸馏数据上训练的模型，其性能仅略低于专家模型本身，并可通过后续 RL 完全弥补差距。

混合 RL 训练（Mixed RL Training）

对于 DeepSeek-V3.2，我们继续采用 Group Relative Policy Optimization（GRPO）（DeepSeek-AI, 2025；Shao et al., 2024）作为强化学习训练算法。

与 DeepSeek-V3.2-Exp 一样，我们将 推理、智能体训练、人类对齐三者合并到同一个 RL 阶段中。这种方法有效平衡不同领域的性能，并避免多阶段训练中常见的灾难性遗忘问题。

奖励策略包括：

推理与智能体任务：基于规则的结果奖励、长度惩罚、语言一致性奖励
通用任务：使用生成式奖励模型，每个 prompt 具有独立评分准则（rubrics）

DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale

DeepSeek-V3.2 整合来自专家模型蒸馏的推理、智能体与人类对齐数据，通过数千步持续 RL 训练，得到最终检查点。

为了探索延长链式思维能力的上限，我们开发了实验性变体 DeepSeek-V3.2-Speciale：

仅使用推理数据进行训练
RL 训练中降低长度惩罚
融入 DeepSeekMath-V2（Shao et al., 2025）的数据集与奖励方法
专门增强数学证明能力

3.1 GRPO 的扩展训练（Scaling GRPO）

首先回顾 GRPO 的优化目标。

GRPO 在每个问题 qqq 上，从旧策略 πold\pi_{\text{old}}πold 采样的一组回答 o1,...,oG{o_1, \ldots, o_G}o1,...,oG 上优化策略模型 πθ\pi_\thetaπθ，其目标函数为：

其中

ri,t(θ)=πθ(oi,t∣q,oi,<t)πold(oi,t∣q,oi,<t)(6) r_{i,t}(\theta) = \frac{\pi_\theta(o_{i,t} \mid q, o_{i,<t})} {\pi_{\text{old}}(o_{i,t} \mid q, o_{i,<t})} \tag{6} ri,t(θ)=πold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)(6)

为重要性采样比率。

(\varepsilon), (\beta) 分别控制 clipping 范围与 KL 强度
(\hat{A}_{i,t}) 是优势项，通过组内奖励归一化计算

对于每个输出 (o_i)，奖励模型给定结果奖励 (R_i)，并计算：

A^i,t=Ri−mean(R). \hat{A}_{i,t} = R_i - \text{mean}(R). A^i,t=Ri−mean(R).

3.1.1 无偏 KL 估计（Unbiased KL Estimate）

由于 oi,to_{i,t}oi,t 来自旧策略 πold\pi_{\text{old}}πold，我们对 K3 估计器（Schulman, 2020）进行修正，使其通过重要性采样比率得到无偏估计：

修正结果：

KL 的梯度变为无偏，有助于稳定收敛
避免原 K3 在 (\pi_\theta \ll \pi_{\text{ref}}) 时梯度爆炸的问题

不同领域对 KL 正则强度敏感性不同，例如数学任务在弱 KL 或无 KL 时性能反而更好。

3.1.2 离策略序列掩码（Off-Policy Sequence Masking）

为了提高效率，我们通常先生成大批 rollout 数据，再拆成多个 mini-batch 执行多步更新。这自然引入离策略性。此外，高性能推理框架与训练框架之间的实现差异也加剧离策略问题。

为稳定训练，我们对产生显著策略偏移的样本进行掩码：

新的 GRPO 目标变为：

要点：

仅 mask 负优势（negative advantage） 样本
原因：模型最能从自身错误中学习，但高度离策略的负样本会损害训练

实践中，该操作显著提升了不稳定训练场景的稳定性。

3.1.3 保持路由（Keep Routing）

MoE 的专家选择在推理与训练框架中可能不同，从而造成路由不一致。这会导致：

激活参数空间突变
加剧离策略问题
造成训练不稳定

解决方案：

记录推理时的专家路由，并在训练时强制使用相同路由。

这在 DeepSeek-V3-0324 中已被采用，是稳定 MoE RL 的关键。

3.1.4 保持采样掩码（Keep Sampling Mask）

top-p / top-k 采样虽能提高输出质量，但会改变动作空间，从而：

破坏重要性采样前提
导致训练不稳定

解决方案：

将旧策略采样时的截断掩码同步应用于新策略。

经验表明：

top-p + Keep Sampling Mask
能有效保持 RL 训练的语言一致性

3.2 工具使用中的思维能力（Thinking in Tool-Use）

3.2.1 思维上下文管理（Thinking Context Management）

DeepSeek-R1 已经证明，引入思维过程可以显著提升模型解决复杂问题的能力。基于这一洞察，我们尝试将思维能力整合到工具调用（tool-calling）场景中。

我们观察到，若直接沿用 DeepSeek-R1 的策略------在第二轮消息到来时丢弃推理内容------会带来严重的 token 低效性。因为这会迫使模型在每次工具调用后，都必须重新推理整个问题。

为缓解这一问题，我们开发了一种专门用于工具调用的上下文管理策略，如图 4 所示：

只有当新的用户消息出现时，历史推理内容才会被丢弃。

若追加的仅是工具相关消息（例如工具输出），推理内容会在整个交互过程中被保留。
当推理轨迹被清除时，工具调用的历史记录及其结果仍然保留在上下文中。

值得注意的是，一些智能体框架（例如 Roo Code 或 Terminus）通过用户消息来模拟工具交互。由于其上下文结构与上述策略不同，这些框架未必能充分受益于我们的"推理持久化"机制。因此，我们建议在此类框架中使用 非思维模型（non-thinking models） 以获得最佳性能。

3.2.2 冷启动（Cold-Start）

在已有如下两类数据的前提下：

带推理过程的非智能体数据（reasoning data）
不带推理过程的智能体数据（agentic data）

一种简单的整合方式是通过精心设计的 prompt。

我们认为：模型在已有能力基础上，可以很好地遵循明确指示，因此能够通过 prompting 自然地将工具执行整合进推理过程。

为展示冷启动机制如何运行，我们对训练数据进行抽样，如附录表 6--8 所示：

表 6：推理数据示例

使用系统提示明确要求模型在最终答案前进行推理，并通过 <think></think> 标签标记推理路径。
表 7：非推理智能体数据示例

系统提示中包含工具调用相关指导。
表 8：我们设计的系统提示

指示模型在推理过程中融入多次工具调用。

通过此方式，即使模型在工具使用过程中的推理模式尚不稳定，它也能 偶尔生成符合预期的轨迹，成为后续 RL 阶段训练的基础。

3.2.3 大规模智能体任务（Large-Scale Agentic Tasks）

多样化的 RL 任务对于增强模型稳健性至关重要。

对于搜索、代码工程与代码解释等任务，我们使用真实的工具环境，例如：

Web 搜索 API
编程环境
Jupyter Notebook

这些 RL 环境是真实的，但其 prompt 来自互联网或合成，而非真实用户输入。

对于其他任务，我们构建完全合成的环境与 prompt。

我们使用的智能体任务如表 1 所述。

搜索智能体（Search Agent）

我们基于 DeepSeek-V3.2 构建多智能体管线，生成多样且高质量的训练数据。流程如下：

从大规模网页语料中采样不同领域的长尾实体
问题构造智能体利用搜索工具进行探索（具有可配置的深度与广度），并整合为 QA 样本
多个回答生成智能体（不同 checkpoint、系统提示等配置）为每个 QA 对生成多样回答
具有搜索能力的验证智能体通过多轮验证，筛选条件为：
- 标准答案正确
- 所有候选答案均可被验证为错误

生成的数据跨越多个语言、领域与难度。

此外，我们从已有的 helpful RL 数据集中筛选可被搜索工具显著提升质量的样本，进行增补。

我们为多个维度构建详细的评价标准（rubrics），并使用生成式奖励模型计算奖励。这一混合方法同时优化事实可靠性与实用帮助度。

代码智能体（Code Agent）

我们从 GitHub 挖掘了数百万 issue--PR 配对构建大规模可执行环境，并进行严格过滤以确保质量：

每条数据需包含合理的问题描述
对应的 gold patch
可验证的 test patch

然后利用 DeepSeek-V3.2 驱动的自动环境搭建智能体完成环境构建，包括：

包安装
依赖处理
测试执行

测试输出采用标准 JUnit 格式，确保跨语言统一解析。

当且仅当：

应用 gold patch 后 F2P（false-to-pass）测试数 > 0
P2F（pass-to-fail）测试数 = 0

环境被视为构建成功。

最终我们构建了数万个可重复环境，覆盖：

Python
Java
JavaScript
TypeScript
C
C++
Go
PHP

代码解释智能体（Code Interpreter Agent）

我们使用 Jupyter Notebook 作为代码解释器来解决复杂推理任务。

为此，我们准备了跨数学、逻辑、数据科学等领域的多种问题，这些问题要求模型必须通过代码执行才能得到答案。

通用智能体（General Agent）

为扩大 RL 中的环境与任务规模，我们使用自动环境生成智能体构建了 1,827 个任务环境。这些任务：

难解，但易于验证
具有自动化评估机制

任务生成流程如下：

给定任务类别（如旅行规划）与带搜索工具的 bash sandbox
- 智能体使用工具生成或检索相关数据，并存储至数据库
智能体合成任务特定工具（函数形式）
智能体构造任务解决方案与验证函数（Python 实现）

限制条件：
- 解决方案 只能调用工具函数或逻辑计算
- 不能调用其他函数或直接访问数据库
- 需通过验证函数验证
  若无法通过，智能体修改方案或验证函数
智能体逐步增加任务难度，并在必要时扩展工具集

最终得到成千上万个 <environment, tools, task, verifier> 元组。

我们使用 DeepSeek-V3.2 在此数据集上执行 RL，并保留所有 pass@100 > 0 的实例，共计：

1,827 个环境
4,417 个任务

文中附带一个行程规划任务示例：

任务空间组合极大、难以搜索，但验证一个候选方案是否满足条件则相对简单。

Experiments

4.1 主要结果（Main Results）

我们在以下基准上对模型进行评估：

MMLU-Pro（Wang et al., 2024）
GPQA Diamond（Rein et al., 2023）
HLE（Human Last Exam）Text-only（Phan et al., 2025）
LiveCodeBench（2024.08--2025.04）
Codeforces
Aider-Polyglot
AIME 2025
HMMT Feb 2025 / Nov 2025（Balunović et al., 2025）
IMOAnswerBench（Luong et al., 2025）
Terminal Bench 2.0
SWE-Verified（OpenAI, 2024b）
SWE Multilingual（Yang et al., 2025）
BrowseComp（Wei et al., 2025）
BrowseCompZh（Zhou et al., 2025）
τ²-bench（Barres et al., 2025）
MCP-Universe（Luo et al., 2025）
MCP-Mark（EvalSys, 2025）
Tool-Decathlon（Li et al., 2025）

在工具使用（tool-use）基准中，我们以标准函数调用格式进行评估，模型设置为 thinking mode。对于 MCP-Universe 与 MCP-Mark，我们使用内部环境进行评测，因为搜索环境和 Playwright 环境可能与官方略有不同。

我们将 temperature 设置为 1.0，上下文窗口设置为 128K tokens。

对于数学类任务（AIME、HMMT、IMOAnswerBench、HLE），我们使用以下模板进行评测：

复制代码

{question}
Please reason step by step, and put your final answer within \boxed{}.

在 HLE 的评估中，我们还使用官方模板对 DeepSeek-V3.2-Thinking 进行测试，得分为 23.9。

与竞品模型的对比表现

DeepSeek-V3.2 的推理能力接近 GPT-5-high，但略弱于 Gemini-3.0-Pro。
与 K2-Thinking 相比，DeepSeek-V3.2 在 输出 token 明显更少的情况下取得了可比性能 （见表 3）。

性能提升主要来自：

加大 RL 训练计算预算
RL 训练时间的显著延长（已超过预训练成本的 10%）

我们观察到：随着 RL 预算进一步增加，模型推理表现持续提升。

我们推测：若继续增加训练算力，推理能力仍可进一步增强。

值得注意的是：

当前 DeepSeek-V3.2 的结果受到 长度约束奖励模型（length constraint reward model）的限制。移除该约束后，模型性能进一步提升，详见第 4.2 节。

代码智能体任务表现

DeepSeek-V3.2 在 SWE-bench Verified 与 Terminal Bench 2.0 上明显优于所有开源 LLM，展示出其在真实代码工作流中的潜力。

Terminal Bench 2.0

由于我们的 "思维模式上下文管理策略" 暂时不兼容 Terminus 框架，因此：

使用 Claude Code 框架 得到得分 46.4
在 Terminus 的 非思维模式 下评测，则得分 39.3

SWE-bench Verified

主结果来自我们的内部评测框架
使用 Claude Code、RooCode 以及非思维模式得到的结果一致，介于 72--74 之间，表现稳定

搜索智能体任务表现

我们使用商业搜索 API 进行评测。

由于 DeepSeek-V3.2 的最大上下文长度为 128K，测试集中约 20% 以上用例超过该长度。

为此，我们采用 上下文管理策略 来计算最终得分。

作为参考：

若不使用该策略，得分为 51.4

进一步细节见第 4.4 节。

工具使用基准（tool-use benchmarks）表现

DeepSeek-V3.2 已大幅缩小开源模型与闭源模型的差距，但仍落后于最新的前沿模型（frontier models）。

τ²-bench

我们让模型本身作为用户智能体，最终获得：

航空（Airline）：63.8
零售（Retail）：81.1
电信（Telecom）：96.2

MCP 系列基准

我们使用函数调用格式，将工具输出放入 tool 角色消息（而非 user）。

测试中发现：

DeepSeek-V3.2 经常进行 冗余自我验证
导致生成过长轨迹
从而在某些任务（如 MCP-Mark GitHub、Playwright）频繁触发 上下文超限（context overflow）

这现象拖累了最终成绩。

然而：

通过引入上下文管理策略，可显著改善该问题
我们将其视作未来工作方向及用户在实践中需要考虑的因素

尽管如此，DeepSeek-V3.2 仍显著优于所有现存开源模型。

特别是：
这些评测环境与工具从未作为 RL 训练数据出现 ，模型仍能大幅提升，说明 DeepSeek-V3.2 能将推理策略泛化至域外（out-of-domain） 智能体任务。

4.2 DeepSeek-V3.2-Speciale 的结果

表 3 显示，DeepSeek-V3.2-Speciale 通过使用更多的推理 tokens 获得了更优的性能，在多个基准上超越了当前最先进的 Gemini-3.0-Pro。值得注意的是，如表 4 所示，该通用模型在未经过专项训练的情况下，就在 2025 年国际信息学奥林匹克竞赛（IOI）和 ICPC 世界总决赛（ICPC WF）中达到了金牌水平。此外，通过结合 Shao 等人（2025）的方法，该模型在复杂证明任务中表现出色，在 2025 年国际数学奥林匹克（IMO）和中国数学奥林匹克（CMO）中达到了金牌线。

然而，DeepSeek-V3.2-Speciale 的 token 效率仍显著低于 Gemini-3.0-Pro。为了降低部署成本与延迟，我们在官方版本 DeepSeek-V3.2 的训练过程中施加了更严格的 token 约束，以优化性能与成本之间的权衡。我们认为，token 效率仍是未来需要重点研究的方向。

4.3 合成智能体任务

在本节中，我们通过消融实验研究合成智能体任务的作用，重点关注两个问题。其一，合成任务对于强化学习是否具有足够的挑战性？其二，这些合成任务的泛化能力如何，即它们能否迁移到不同的下游任务或真实环境中？

为回答第一个问题，我们从通用的合成智能体任务中随机抽取 50 个实例，分别评估用于生成这些任务的模型以及前沿闭源 LLM。如表 5 所示，DeepSeek-V3.2-Exp 的准确率仅为 12%，而前沿闭源模型的最高准确率也只有 62%。这些结果表明，合成数据中包含的智能体任务对 DeepSeek-V3.2-Exp 和闭源模型而言都具有相当挑战性。

为研究基于合成数据的 RL 能否泛化到不同任务或真实环境，我们将 RL 应用于 DeepSeek-V3.2 的 SFT 检查点（记为 DeepSeek-V3.2-SFT）。为排除长链式推理（long CoT）及其他 RL 数据的影响，我们仅在非思维模式下对合成智能体任务进行 RL 训练。随后，我们将模型与 DeepSeek-V3.2-SFT 和 DeepSeek-V3.2-Exp 进行比较，其中 DeepSeek-V3.2-Exp 只在搜索和代码环境中进行 RL 训练。

如图 5 所示，大规模的合成数据 RL 在 Tau2Bench、MCP-Mark 和 MCP-Universe 基准上相较 DeepSeek-V3.2-SFT 带来了显著提升。相比之下，将 RL 限制在代码与搜索场景中并不能改善这些基准上的表现，进一步凸显了合成数据的潜力。

4.4 搜索智能体的上下文管理

即使具备如 128k 的扩展上下文窗口，在以搜索为核心的智能体工作流中，模型仍常因达到最大长度限制而导致推理过程被过早截断。这一瓶颈抑制了测试时计算（test-time compute）潜力的充分发挥。

为解决此问题，我们提出了一种上下文管理方法，当 token 使用量超过上下文窗口长度的 80% 时，通过简单策略在测试阶段扩展 token 预算。这些策略包括：

Summary：对溢出的轨迹进行总结，然后重新启动 rollout；
Discard-75%：丢弃轨迹中最早的 75% 工具调用历史，以释放上下文空间；
Discard-all：丢弃所有先前的工具调用历史，重置上下文（类似于 Anthropic (2025a) 提出的新上下文工具）。

作为对照，我们还实现了一个并行扩展基线 Parallel-fewest-step，即采样 N 条独立轨迹并选取其中步骤最少的一条。

我们在 BrowseComp 基准（Wei et al., 2025）上评估了这些策略。

如图 6 所示，在不同的计算预算下，上下文管理通过允许模型扩展测试时计算量而带来显著性能提升，为模型执行更多步骤提供空间。例如：

Summary 将平均执行步数扩展至 364，性能最高可提高至 60.2，但整体效率较低；
Discard-all 尽管极为简单，却在效率与可扩展性上表现良好，以显著更少的步骤取得了 67.6 的得分，与并行扩展方法相当。

综上，测试时计算可以通过 串行方式（上下文管理） 或 并行方式 进行扩展，两者都能有效提升模型的任务求解能力。然而，不同策略的效率与可扩展性存在差异，因此在基准测试中需要考虑实际计算成本。

同时，如何在串行与并行扩展之间找到最优组合，使效率与可扩展性同时最大化，仍是未来的重要研究方向。

Conclusion

通过引入 DSA，在不牺牲长上下文性能的前提下解决了关键的计算复杂度问题
凭借增加的计算预算，DeepSeek-V3.2 在推理基准上实现了与 GPT-5 相当的表现
大规模智能体任务合成流水线的整合显著提升了工具使用能力
与 Gemini-3.0-Pro 这种前沿闭源模型比，DeepSeek-V3.2 仍存在一定局限性。目前差距可能的原因有
- 训练 FLOPs 不足，DeepSeek-V3.2 的世界知识广度仍落后于领先的商业模型
- token 效率仍是一项挑战；DeepSeek-V3.2 往往需要更长的生成轨迹（即更多 token）才能达到类似 Gemini-3.0-Pro 的输出质量