DeepSeek-V3.2:推动开源大型语言模型的前沿发展
摘要
我们介绍了DeepSeek-V3.2,这是一个在高效计算与卓越推理及智能体性能之间取得平衡的模型。DeepSeek-V3.2的关键技术突破如下:(1) DeepSeek稀疏注意力(DSA):我们引入了DSA,这是一种高效注意力机制,在保持长上下文场景中模型性能的同时,大幅降低了计算复杂度。(2) 可扩展的强化学习框架:通过实施稳健的强化学习协议并扩展后训练计算,DeepSeek-V3.2的表现与GPT-5相当。值得注意的是,我们的高计算变体DeepSeek-V3.2-Speciale超越了GPT-5,其推理能力与Gemini-3.0-Pro相当,在2025年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中均获得金牌表现。(3) 大规模智能体任务合成流水线:为了将推理能力融入工具使用场景,我们开发了一种新颖的合成流水线,系统地大规模生成训练数据。这种方法促进了可扩展的智能体后训练,在复杂交互环境中显著提高了泛化能力和指令遵循的鲁棒性。

图1 | DeepSeek-V3.2及其对应模型的基准测试。对于HMMT 2025,我们报告了2月的比赛结果,与基线保持一致。对于HLE,我们报告了纯文本子集的结果。
1. 引言
推理模型的发布(DeepSeek-AI, 2025;OpenAI, 2024a)标志着大型语言模型(LLM)演进的关键时刻,推动了在可验证领域的整体性能的重大飞跃。自这一里程碑以来,LLM的能力迅速发展。然而,在过去几个月中出现了明显的分歧。虽然开源社区(MiniMax, 2025;MoonShot, 2025;智谱AI, 2025)持续取得进展,但闭源专有模型(Anthropic, 2025b;DeepMind, 2025a;OpenAI, 2025)的性能轨迹以显著更快的速度加速提升。因此,闭源模型与开源模型之间的性能差距非但没有缩小,反而似乎在扩大,专有系统在复杂任务中展现出日益优越的能力。
通过我们的分析,我们识别了限制开源模型在复杂任务中能力的三个关键缺陷。首先,在架构上,主要依赖于普通注意力机制(Vaswani等人,2017)严重限制了长序列的效率。这种低效性对可扩展部署和有效后训练都构成了重大障碍。其次,在资源分配方面,开源模型在后训练阶段存在计算投入不足的问题,限制了其在困难任务上的表现。最后,在AI智能体方面,与专有模型相比,开源模型在泛化能力和指令遵循能力上表现出明显滞后(EvalSys, 2025;Li等人, 2025;Luo等人, 2025),这阻碍了它们在真实部署中的有效性。
为了解决这些关键限制,我们首先引入了DSA,这是一种高效注意力机制,旨在显著降低计算复杂度。该架构有效解决了效率瓶颈问题,即使在长上下文场景中也能保持模型性能。其次,我们开发了一个稳定且可扩展的强化学习(RL)协议,允许在后训练阶段进行显著的计算扩展。值得注意的是,该框架分配的后训练计算预算超过了预训练成本的10%,从而解锁了高级能力。第三,我们提出了一种新颖的流水线,以促进工具使用场景中可泛化的推理能力。首先,我们利用DeepSeek-V3(DeepSeek-AI, 2024)的方法实施冷启动阶段,将推理和工具使用统一在单个轨迹中。随后,我们推进到大规模智能体任务合成,生成了超过1800个不同的环境和85,000个复杂提示。这种广泛的合成数据驱动了强化学习过程,显著增强了智能体上下文中模型的泛化能力和指令遵循能力。
DeepSeek-V3.2在多个推理基准测试中与Kimi-k2-thinking和GPT-5取得了相似的表现。此外,DeepSeek-V3.2显著提升了开源模型的智能体能力,在EvalSys(2025)、Li等人(2025)和Luo等人(2025)引入的长尾智能体任务中展现出卓越的熟练度。DeepSeek-V3.2成为智能体场景中一个极具成本效益的替代方案,显著缩小了开源模型与前沿专有模型之间的性能差距,同时成本大幅降低。值得注意的是,为了在推理领域推动开源模型的边界,我们放宽了长度限制,开发了DeepSeek-V3.2-Speciale。因此,DeepSeek-V3.2-Speciale达到了与领先闭源系统Gemini-3.0-Pro(DeepMind, 2025b)相当的性能。它在IOI 2025、ICPC世界总决赛2025、IMO 2025和CMO 2025中展现出金牌级别的表现。
2. DeepSeek-V3.2 架构
2.1. DeepSeek稀疏注意力
DeepSeek-V3.2使用的架构与DeepSeek-V3.2-Exp完全相同。与DeepSeek-V3.1-Terminus(DeepSeek-V3.1的最后一个版本)相比,DeepSeek-V3.2唯一的架构修改是通过持续训练引入了DeepSeek稀疏注意力(DSA)。
DSA的原型。 DSA的原型主要包括两个组件:一个闪电索引器和一个细粒度令牌选择机制。
闪电索引器计算查询令牌ht∈Rd\mathbf{h}{t}\in\mathbb{R}^{d}ht∈Rd与先前令牌hs∈Rd\mathbf{h}{s}\in\mathbb{R}^{d}hs∈Rd之间的索引分数It,sI_{t,s}It,s,确定哪些令牌将被查询令牌选中:
It,s=∑j=1HIwt,jI⋅ReLU(qt,jI⋅ksI),I_{t,s}=\sum_{j=1}^{H^{I}}w_{t,j}^{I}\cdot\mathrm{ReLU}\left(\mathbf{q}{t,j}^{I}\cdot\mathbf{k}{s}^{I}\right),It,s=j=1∑HIwt,jI⋅ReLU(qt,jI⋅ksI),
其中HIH^{I}HI表示索引器头数;qt,jI∈RdI\mathbf{q}{t,j}^{I}\in\mathbb{R}^{d^{I}}qt,jI∈RdI和wt,jI∈Rw{t,j}^{I}\in\mathbb{R}wt,jI∈R。由查询令牌ht\mathbf{h}{t}ht派生;ksI∈RdI\mathbf{k}{s}^{I}\in\mathbb{R}^{d^{I}}ksI∈RdI由先前令牌hs\mathbf{h}_{s}hs派生。出于吞吐量考虑,我们选择ReLU作为激活函数。由于闪电索引器头数较少且可以在FP8中实现,其计算效率非常显著。
给定每个查询令牌ht\mathbf{h}{t}ht的索引分数{It,s}\left\{I{t,s}\right\}{It,s},我们的细粒度令牌选择机制仅检索与最高k个索引分数对应的键值条目{cs}\{\mathbf{c}{s}\}{cs}·。然后,注意力输出ut\mathbf{u}{t}ut通过在查询令牌ht\mathbf{h}{t}ht与稀疏选择的键值条目{cs}\{\mathbf{c}{s}\}{cs}之间应用注意力机制计算得出:
ut=Attn(ht,{cs∣It,s∈Top-k(It,:)}).\mathbf{u}{t}=\operatorname{Attn}\left(\mathbf{h}{t},\left\{\mathbf{c}{s}|I{t,s}\in\operatorname{Top-k}\left(I_{t,:}\right)\right\}\right).ut=Attn(ht,{cs∣It,s∈Top-k(It,:)}).
在MLA下实例化DSA。 出于从DeepSeek-V3.1-Terminus进行持续训练的考虑,我们基于MLA(DeepSeek-AI, 2024)为DeepSeek-V3.2实例化了DSA。在内核层面,每个键值条目必须在多个查询之间共享以实现计算效率(Yuan等人, 2025)。因此,我们基于MLA的MQA(Shazeer, 2019)模式¹实现了DSA,其中每个潜在向量(MLA的键值条目)将在查询令牌的所有查询头之间共享。基于MLA的DSA架构如图2所示。我们还提供了DeepSeek-V3.2²的开源实现,以明确指定细节。

图2 | DeepSeek-V3.2的注意力架构,其中DSA在MLA下实例化。绿色部分说明了DSA如何根据索引器选择前k个键值条目。
2.1.1. 持续预训练
我们从DeepSeek-V3.1-Terminus的一个基础检查点开始(其上下文长度已扩展到128K),执行持续预训练,然后进行后训练,以创建DeepSeek-V3.2。
DeepSeek-V3.2的持续预训练包括两个训练阶段。对于这两个阶段,训练数据的分布与用于DeepSeek-V3.1-Terminus的128K长上下文扩展数据完全对齐。
密集预热阶段。 我们首先使用一个简短的预热阶段来初始化闪电索引器。在此阶段,我们保持密集注意力,并冻结除闪电索引器外的所有模型参数。为了使索引器输出与主注意力分布对齐,对于第t个查询令牌,我们首先通过对所有注意力头求和来聚合主注意力分数。然后,该总和沿序列维度进行L1归一化,产生目标分布pt,:∈Rtp_{t,:}\in\mathbb{R}^{t}pt,:∈Rt。基于pt,:p_{t,:}pt,:,我们将KL散度损失设置为索引器的训练目标:
LI=∑tDKL(pt,:∥Softmax(It,:)).\mathcal{L}^{I}=\sum_{t}\mathbb{D}{\mathrm{KL}}\big(p{t,:}\left\|\operatorname{Softmax}\big(I_{t,:}\big)\big).\right.LI=t∑DKL(pt,: Softmax(It,:)).
对于预热,我们使用10−310^{-3}10−3的学习率。我们仅训练索引器1000步,每步包含16个128K令牌的序列,总计21亿个令牌。
稀疏训练阶段。 索引器预热后,我们引入细粒度令牌选择机制,并优化所有模型参数,使模型适应DSA的稀疏模式。在此阶段,我们继续将索引器输出与主注意力分布对齐,但仅考虑选定的令牌集St={s|It,s∈Top−k(It,:)}\mathcal{S}{t}=\left\{s\middle|I{t,s}\in\mathrm{Top-k}\big(I_{t,:}\big)\right\}St={s It,s∈Top−k(It,:)}
LI=∑tDKL(pt,St∥Softmax(It,St)).\mathcal{L}^{I}=\sum_{t}\mathbb{D}{\mathrm{KL}}\big(p{t,\mathcal{S}{t}}\left\|\operatorname{Softmax}\big(I{t,\mathcal{S}_{t}}\big)\big).\right.LI=t∑DKL(pt,St Softmax(It,St)).
值得注意的是,为了单独优化,我们将索引器输入从计算图中分离。索引器的训练信号仅来自LI\mathcal{L}^{I}LI,而主模型的优化仅根据语言建模损失进行。在此稀疏训练阶段,我们使用7.3×10−6ˉ\bar{7.3\times10^{-6}}7.3×10−6ˉ的学习率,并为每个查询令牌选择2048个键值令牌。我们同时训练主模型和索引器15000步,每步包含480个128K令牌的序列,总计9437亿个令牌。
2.2. 性能对等评估
标准基准测试 2025年9月,我们在专注于多样化能力的一系列基准测试上评估了DeepSeek-V3.2-Exp,并将其与DeepSeek-V3.1-Terminus进行比较,显示出相似的表现。虽然DeepSeek-V3.2-Exp在长序列上显著提高了计算效率,但与DeepSeek-V3.1-Terminus相比,在短上下文和长上下文任务上均未观察到显著的性能下降。
人类偏好 鉴于直接的人类偏好评估本质上容易产生偏见,我们采用ChatbotArena作为一个间接评估框架,以近似用户对新开发的基础模型的偏好。DeepSeek-V3.1-Terminus和DeepSeek-V3.2-Exp共享相同的后训练策略,它们在2025年11月10日进行的评估中获得的Elo分数非常接近。这些结果表明,尽管引入了稀疏注意力机制,但新的基础模型实现了与前一版本相当的性能。
长上下文评估 DeepSeek-V3.2-Exp发布后,使用之前未见过的测试集进行了多项独立的长上下文评估。一个具有代表性的基准是AA-LCR³,其中DeepSeek-V3.2-Exp在推理模式下比DeepSeek-V3.1-Terminus高出四分。在Fiction.liveBench评估⁴中,DeepSeek-V3.2-Exp在多个指标上持续优于DeepSeek-V3.1-Terminus。这一证据表明DeepSeek-V3.2-Exp的基础检查点在长上下文任务上没有出现性能倒退。
2.3. 推理成本
DSA将主模型的核心注意力复杂度从O(L2)O\left(L^{2}\right)O(L2)降低到O(Lk)O(L k)O(Lk),其中k (≪L)\left(\ll L\right)(≪L) 1是选择的令牌数量。尽管闪电索引器仍然具有O(L2)O\left(L^{2}\right)O(L2)的复杂度,但与DeepSeek-V3.1-Terminus中的MLA相比,其所需的计算量要少得多。结合我们优化的实现,DSA在长上下文场景中实现了显著的端到端加速。图3展示了DeepSeek-V3.1-Terminus和DeepSeek-V3.2的令牌成本如何随序列中令牌位置的变化而变化。这些成本是根据部署在H800 GPU上的实际服务进行基准测试估计的,租赁价格为每小时2美元。请注意,对于短序列预填充,我们特别实现了一种掩码MHA模式来模拟DSA,可以在短上下文条件下实现更高的效率。
3. 后训练
持续预训练后,我们执行后训练以创建最终的DeepSeek-V3.2。DeepSeek-V3.2的后训练也以与稀疏持续预训练阶段相同的方式使用稀疏注意力。对于DeepSeek-V3.2,我们保持了与DeepSeek-V3.2-Exp相同的后训练流水线,包括专家蒸馏和混合强化学习训练。
专家蒸馏 对于每项任务,我们最初开发一个专门针对该特定领域的专家模型,所有专家模型都是从相同的预训练DeepSeek-V3.2基础检查点进行微调。除了写作任务和一般问答外,我们的框架涵盖六个专业领域:数学、编程、一般逻辑推理、一般智能体任务、智能体编码和智能体搜索,所有领域都支持思考和非思考模式。每个专家都使用大规模强化学习(RL)计算进行训练。此外,我们使用不同的模型生成长链思维推理(思考模式)和直接响应生成(非思考模式)的训练数据。专家模型准备就绪后,它们被用来为最终检查点生成特定领域的数据。实验结果表明,在蒸馏数据上训练的模型达到的性能水平仅略低于领域特定的专家,性能差距通过后续的强化学习训练被有效消除。

图3 | DeepSeek-V3.1-Terminus和DeepSeek-V3.2在H800集群上的推理成本。
混合强化学习训练 对于DeepSeek-V3.2,我们仍然采用组相对策略优化(GRPO)(DeepSeek-AI, 2025;Shao等人, 2024)作为强化学习训练算法。与DeepSeek-V3.2-Exp一样,我们将推理、智能体和人类对齐训练合并到一个强化学习阶段。这种方法有效地平衡了跨不同领域的性能,同时避免了通常与多阶段训练范式相关的灾难性遗忘问题。对于推理和智能体任务,我们采用基于规则的结果奖励、长度惩罚和语言一致性奖励。对于一般任务,我们采用生成式奖励模型,其中每个提示都有自己的评估标准。
DeepSeek-V3.2和DeepSeek-V3.2-Speciale DeepSeek-V3.2整合了从专家蒸馏得到的推理、智能体和人类对齐数据,经过数千步的持续强化学习训练以达到最终检查点。为了研究扩展思维能力的潜力,我们还开发了一个实验变体DeepSeek-V3.2-Speciale。该模型仅在推理数据上训练,并在强化学习期间减少了长度惩罚。此外,我们整合了DeepSeekMath-V2(Shao等人, 2025)的数据集和奖励方法,以增强数学证明能力。
我们希望在3.1节中强调我们在如何创建稳定配方以扩展强化学习计算方面的努力,以及在3.2节中如何将思维能力整合到智能体任务中。
3.1. 扩展GRPO
我们首先回顾一下GRPO的目标。GRPO通过最大化以下关于从旧策略πold\pi_{\mathrm{old}}πold中采样的响应组{o1,⋯ ,oG}\{o_{1},\cdots,o_{G}\}{o1,⋯,oG}的目标来优化策略模型πθ\pi_{\theta}πθ:
JGRPO(θ)=Eq∼P(Q),{oi}i=1G∼πold(⋅∣q)[1G∑i=1G1∣oi∣∑t=1∣oi∣min(ri,t(θ)A^i,t,clip(ri,t(θ),1−ε,1+ε)A^i,t)−βDKL(πθ(oi,t)∥πref(oi,t))],\begin{align*}\mathcal{J}{\mathrm{GRPO}}(\theta)=&\mathbb{E}{q\sim P(Q),\{o_i\}{i=1}^G\sim\pi{\mathrm{old}}(\cdot\mid q)}\left[\frac1G\sum_{i=1}^G\frac1{\left|o_i\right|}\sum_{t=1}^{\left|o_i\right|}\right.\\&\left.\min\left(r_{i,t}(\theta)\hat{A}{i,t},\mathsf{clip}\left(r{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}{i,t}\right)-\beta\mathbb{D}{\mathrm{KL}}\big(\pi_{\theta}(o_{i,t})\left\|\pi_{\mathrm{ref}}(o_{i,t})\right)\right],\end{align*}JGRPO(θ)=Eq∼P(Q),{oi}i=1G∼πold(⋅∣q) G1i=1∑G∣oi∣1t=1∑∣oi∣min(ri,t(θ)A^i,t,clip(ri,t(θ),1−ε,1+ε)A^i,t)−βDKL(πθ(oi,t)∥πref(oi,t))],
其中
ri,t(θ)=πθ(oi,t∣q,oi,<t)πold(oi,t∣q,oi,<t)r_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\mathrm{old}}(o_{i,t}|q,o_{i,<t})}ri,t(θ)=πold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)
是当前策略与旧策略之间的重要性采样比率。ε和β是控制裁剪范围和KL惩罚强度的超参数。A^i,t\hat{A}{i,t}A^i,t是oi,to{i,t}oi,t的优势,通过在组内对结果奖励进行归一化来估计。具体来说,使用一组奖励模型为组中的每个输出oio_{i}oi评分结果奖励RiR_{i}Ri,分别得到G个奖励R = {R1,⋅⋅⋅,RG}{\pmb R}\;=\;\left\{R_{1},\cdot\cdot\cdot\right.,R_{G}\big\}R={R1,⋅⋅⋅,RG}。oi,to_{i,t}oi,t的优势通过从输出oio_{i}oi的奖励中减去组的平均奖励来计算,即,
A^i,t=Ri−mean(R)\hat{A}{i,t}=R{i}-\operatorname{mean}(\pmb{R})A^i,t=Ri−mean(R)
在下面,我们概述了直接基于GRPO算法的额外策略,这些策略稳定了强化学习的扩展。
无偏KL估计 给定oi,to_{i,t}oi,t是从旧策略πold(⋅∣q,oi,<t)\pi_{\mathrm{old}}\big(\cdot\big|q,o_{i,<t}\big)πold(⋅ q,oi,<t)中采样的,我们修正K3估计器(Schulman, 2020),使用当前策略πθ\pi_{\theta}πθ和旧策略πold\pi_{\mathrm{old}}πold之间的重要性采样比率来获得无偏KL估计:
DKL(πθ(oi,t)∥πref(oi,t))=πθ(oi,t∣q,oi,<t)πold(oi,t∣q,oi,<t)(πref(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)−logπref(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)−1).\mathbb{D}{\mathrm{KL}}\big(\pi{\theta}(o_{i,t})\mathbin\Vert\pi_{\mathrm{ref}}(o_{i,t})\big)=\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\mathrm{old}}(o_{i,t}|q,o_{i,<t})}\left(\frac{\pi_{\mathrm{ref}}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}-\log\frac{\pi_{\mathrm{ref}}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}-1\right).DKL(πθ(oi,t)∥πref(oi,t))=πold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)(πθ(oi,t∣q,oi,<t)πref(oi,t∣q,oi,<t)−logπθ(oi,t∣q,oi,<t)πref(oi,t∣q,oi,<t)−1).
作为这一调整的直接结果,该KL估计器的梯度变得无偏,从而消除了系统估计误差,促进了稳定收敛。这与原始K3估计器形成鲜明对比,特别是当采样令牌在当前策略下的概率远低于参考策略时,即πθ≪πref\pi_{\theta}\ll\pi_{\mathrm{ref}}πθ≪πref。在这种情况下,K3估计器的梯度会分配不成比例的大、无界的权重来最大化这些令牌的可能性,导致噪声梯度更新,这些更新累积起来会降低后续迭代中的样本质量,并导致训练动态不稳定。在实践中,我们发现不同领域受益于不同强度的KL正则化。对于某些领域,如数学,应用相对较弱的KL惩罚甚至完全省略它可以产生改进的性能。
离策略序列掩码 为了提高强化学习系统的效率,我们通常生成大批量的展开数据,随后将其分割成多个小批量用于若干梯度更新步。这种做法本质上引入了离策略行为。此外,用于高效数据生成的推理框架通常高度优化,可能在实现细节上与训练框架不同。这种训练-推理不一致进一步加剧了离策略的程度。为了稳定训练并提高对离策略更新的容忍度,我们根据数据采样策略πold\pi_{\mathrm{old}}πold与当前策略πθ\pi_{\theta}πθ之间的KL散度来掩码引入显著策略分歧的负序列。更具体地说,我们将一个二元掩码M引入GRPO损失:
JGRPO(θ)=Eq∼P(Q),{oi}i=1G∼πold(⋅∣q)[1G∑i=1G1∣oi∣∑t=1∣oi∣min(ri,t(θ)A^i,t,clip(ri,t(θ),1−ε,1+ε)A^i,t)Mi,t−βDKL(πθ(oi,t)∥πref(oi,t))],\begin{align*}\mathcal{J}{\mathrm{GRPO}}(\theta)=&\mathbb{E}{q\sim P(Q),\{o_i\}{i=1}^G\sim\pi{\mathrm{old}}(\cdot\mid q)}\left[\frac1G\sum_{i=1}^G\frac1{\left|o_i\right|}\sum_{t=1}^{\left|o_i\right|}\right.\\&\left.\min\left(r_{i,t}(\theta)\hat{A}{i,t},\operatorname{clip}\left(r{i,t}(\theta),1-\varepsilon,1+\varepsilon\right)\hat{A}{i,t}\right)M{i,t}-\beta\mathbb{D}{\mathrm{KL}}\big(\pi{\theta}(o_{i,t})\left\|\pi_{\mathrm{ref}}(o_{i,t})\right)\right],\end{align*}JGRPO(θ)=Eq∼P(Q),{oi}i=1G∼πold(⋅∣q) G1i=1∑G∣oi∣1t=1∑∣oi∣min(ri,t(θ)A^i,t,clip(ri,t(θ),1−ε,1+ε)A^i,t)Mi,t−βDKL(πθ(oi,t)∥πref(oi,t))],
其中
Mi,t={0A^i,t<0,1∣oi∣∑t=1∣oi∣logπold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t)>δ,1otherwise,M_{i,t}=\left\{\begin{aligned}&0&&\hat{A}{i,t}<0,\frac1{\left|o{i}\right|}\sum_{t=1}^{\left|o_{i}\right|}\log\frac{\pi_{\mathrm{old}}\left(o_{i,t}\left|q,o_{i,<t}\right)\right.}{\pi_{\theta}\left(o_{i,t}\left|q,o_{i,<t}\right)\right.}>\delta,\\ &1&&&\mathrm{otherwise},\end{aligned}\right.Mi,t=⎩ ⎨ ⎧01A^i,t<0,∣oi∣1t=1∑∣oi∣logπθ(oi,t∣q,oi,<t)πold(oi,t∣q,oi,<t)>δ,otherwise,
且δ是控制策略分歧阈值的超参数。请注意,这里的πold\pi_{\mathrm{old}}πold表示推理框架直接返回的采样概率,因此旧策略与当前策略之间的KL散度考虑了上述两个离策略来源。同样值得注意的是,我们仅掩码具有负优势的序列。直观地说,模型通过从自己的错误中学习获益最大,而高度离策略的负样本可能是有害的,可能会误导或破坏优化过程的稳定性。我们经验性地观察到,这种离策略序列掩码操作提高了某些原本会表现出不稳定性的训练场景的稳定性。
保持路由 混合专家(MoE)模型通过在推理过程中仅激活专家模块的一个子集来提高计算效率。然而,推理和训练框架之间的差异,加上策略更新,可能导致即使对于相同的输入,在推理和训练过程中也会出现不一致的专家路由。这种不一致性导致活动参数子空间的突然变化,从而破坏优化稳定性并加剧离策略问题。为了缓解这个问题,我们保留了在推理框架中采样期间使用的专家路由路径,并在训练期间强制使用相同的路由路径,确保优化相同的专家参数。这种保持路由操作被发现对MoE模型的强化学习训练稳定性至关重要,并且自DeepSeek-V3-0324以来已采用于我们的强化学习训练流水线。
保持采样掩码 Top-p和top-k采样是广泛使用的采样策略,用于提高LLM生成响应的质量。在强化学习训练中采用这些策略也是有利的,因为它避免了采样极低概率的令牌作为优化目标。虽然这种截断保留了样本质量,但它引入了πold\pi_{\mathrm{old}}πold和πθ\pi_{\theta}πθ动作空间之间的不匹配,这违反了重要性采样的原则并使训练不稳定。为了解决这个问题,我们在从πold\pi_{\mathrm{old}}πold采样期间保留截断掩码,并在训练期间将其应用于πθ\pi_{\theta}πθ,确保两种策略共享相同的动作子空间。经验上,我们发现将top-p采样与保持采样掩码策略结合使用,可以在强化学习训练期间有效地保持语言一致性。
3.2. 工具使用中的思考
3.2.1. 思考上下文管理
DeepSeek-R1已经证明,纳入思考过程可以显著增强模型解决复杂问题的能力。基于这一见解,我们旨在将思考能力整合到工具调用场景中。
我们观察到,复制DeepSeek-R1的策略------在第二轮消息到来时丢弃推理内容------会导致显著的令牌低效性。这种方法迫使模型为每个后续工具调用冗余地重新推理整个问题。为了缓解这个问题,我们开发了一个专门为工具调用场景量身定制的上下文管理策略,如图4所示:
仅当新用户消息引入对话时,才丢弃历史推理内容。如果仅追加与工具相关的消息(例如工具输出),则推理内容将在整个交互过程中保留。
当推理痕迹被移除时,工具调用及其结果的历史记录仍保留在上下文中。
值得注意的是,某些智能体框架,如Roo Code或Terminus,通过用户消息模拟工具交互。由于上述上下文管理规则,这些框架可能无法完全受益于我们增强的推理持久性。因此,我们建议使用非思考模型以在此类架构中获得最佳性能。

图4 | 工具调用场景中的思考保留机制。
3.2.2. 冷启动
考虑到推理数据(非智能体)和非推理智能体数据的可用性,整合这两种能力的一个直接策略是通过精心设计的提示。我们假设模型具备足够的能力来准确遵循明确的指令,从而能够在推理过程中无缝整合工具执行。
为了展示冷启动机制的操作,我们选择性采样了训练数据,如附录表6-8所示。需要注意的是,不同的任务提示与不同的系统提示相关联。表6-8展示了一个对应于竞赛编程提示的说明性示例。表6展示了我们推理数据的一个示例,它使用一个系统提示明确要求模型在最终答案之前进行推理,并使用特殊标签标记推理路径。表7展示了非推理智能体数据的提示,其中系统提示包含工具调用的指导。表8展示了我们设计的系统提示,用于指示模型在其推理过程中整合多个工具调用。
通过这种方式,尽管工具使用模式中的推理可能缺乏鲁棒性,但模型偶尔能够生成期望的轨迹,从而为后续的强化学习阶段提供基础。
3.2.3. 大规模智能体任务
多样化的强化学习任务对于增强模型鲁棒性至关重要。对于搜索、代码工程和代码解释等任务,我们使用真实世界的工具,包括实际的网络搜索API、编码工具和Jupyter Notebook。虽然这些强化学习环境是真实的,但所使用的提示要么是从互联网来源提取的,要么是合成生成的,而不是从实际用户交互中获得的。对于其他任务,环境和提示都是合成构建的。我们使用的智能体任务描述如表1所示。
表1 | 不同智能体任务的描述,包括任务数量、环境类型(真实或合成)和提示来源(提取或合成)。

搜索智能体 我们采用基于DeepSeek-V3.2的多智能体流水线来生成多样化、高质量的训练数据。我们首先从大规模网络语料库中采样跨不同领域的丰富长尾实体。然后,一个问题构建智能体使用搜索工具探索每个实体,并配置深度和广度参数,将发现的信息整合成问答对。具有异构配置(不同的检查点、系统提示等)的多个答案生成智能体为每个提出的QA对生成多样化的候选响应。一个具备搜索能力的验证智能体通过多次传递验证所有答案,仅保留真实答案正确且所有候选答案都可验证为错误的样本。这些数据涵盖多种语言、领域和难度级别。为了补充这些可验证样本并更好地反映真实世界使用情况,我们还使用来自现有有帮助的强化学习数据集的过滤实例来增强数据集,这些实例中搜索工具提供了可衡量的好处。然后,我们在多个质量维度上开发详细的评估标准,并采用生成式奖励模型根据这些标准对响应进行评分。这种混合方法能够同时优化事实可靠性和实际有用性。
代码智能体 我们通过从GitHub挖掘数百万个issue-Pull Request (PR)对,构建了大规模、可执行的软件问题解决环境。该数据集经过严格的启发式规则和基于LLM的判断过滤,以确保高质量,要求每个条目包含合理的issue描述、相关的黄金补丁和用于验证的测试补丁。一个由DeepSeek-V3.2驱动的自动环境设置智能体被用来为这些对构建可执行环境。该智能体处理包安装、依赖解析和测试执行。测试结果以标准JUnit格式输出,确保跨编程语言和测试框架的一致性解析。仅当应用黄金补丁导致非零数量的假阳性(F2P)测试用例(表明问题已修复)和零数量的假阴性(P2F)测试用例(表明没有回归)时,环境才被视为成功构建。使用此流水线,我们成功构建了数万个可重现的问题解决环境,涵盖多种编程语言,包括Python、Java、JavaScript、TypeScript、C、C++、GoC、C{+}{+}、GoC、C++、Go和PHP。
代码解释器智能体 我们利用Jupyter Notebook作为代码解释器来处理复杂的推理任务。为此,我们策划了一套涵盖数学、逻辑和数据科学的多样化问题集,每个问题都需要模型利用代码执行能力来得出解决方案。
通用智能体 为了在强化学习中扩展智能体环境和任务,我们采用自动环境合成智能体合成了1,827个面向任务的环境。这些任务难以解决但易于验证。合成工作流程主要包括环境和工具集构建、任务合成和解决方案生成。具体来说,工作流程如下:
-
给定一个任务类别(例如规划旅行行程)和一个配备bash和搜索工具的沙盒,智能体首先使用这些工具从互联网生成或检索相关数据,并将其存储在沙盒数据库中。
-
然后,智能体合成一组特定于任务的工具,每个工具实现为一个函数。
-
为了创建既具有挑战性又可自动验证的任务,智能体首先基于当前数据库提出一个简单任务,以及其解决方案和用Python实现的验证函数。解决方案函数仅限于调用工具函数或执行逻辑计算,不能调用其他函数或直接访问数据库,确保任务只能通过工具接口解决。此外,解决方案函数产生的结果必须通过验证函数验证。如果解决方案未通过验证,智能体将修改解决方案或验证函数,直到解决方案的输出通过验证。然后,智能体迭代地增加任务难度,并更新相应的解决方案和验证函数。在此迭代过程中,如果当前工具集不足以解决任务,智能体将扩充工具集。
遵循此工作流程,我们获得了数千个<环境、工具、任务、验证器>元组。然后,我们在此数据集上使用DeepSeek-V3.2进行强化学习,仅保留通过率@100非零的实例,最终得到1,827个环境及其相应的任务(总计4,417个)。下面展示了一个合成旅行规划示例。此示例强调,虽然搜索满足所有约束的旅行计划的大型组合空间具有挑战性,但检查给定候选解决方案是否满足这些约束相对简单。

4. 评估
4.1. 主要结果
我们在MMLU-Pro(Wang等人, 2024)、GPQA Diamond(Rein等人, 2023)、Human Last Exam (HLE)纯文本(Phan等人, 2025)、LiveCodeBench (2024.08-2025.04)、Codeforces、Aider-Polyglot、AIME 2025、HMMT Feb 2025、HMMT Nov 2025(Balunović等人, 2025)、IMOAnswerBench(Luong等人, 2025)、Terminal Bench 2.0、SWE-Verified(OpenAI, 2024b)、SWE Multilingual(Yang等人, 2025)、BrowseComp(Wei等人, 2025)、BrowseCompZh(Zhou等人, 2025)、τ²-bench(Barres等人, 2025)、MCP-Universe(Luo等人, 2025)、MCP-Mark(EvalSys, 2025)和Tool-Decathlon(Li等人, 2025)上评估模型。工具使用基准使用标准的函数调用格式进行评估,其中模型配置为思考模式。对于MCP-Universe(Luo等人, 2025)和MCP-Mark(EvalSys, 2025),我们使用内部环境评估所有模型,因为搜索和playwright环境可能与官方设置略有不同。我们将温度设置为1.0,上下文窗口设置为128K个令牌。对于数学相关任务,如AIME、HMMT、IMOAnswerBench和HLE,我们使用以下模板进行评估:"{question}\n请逐步推理,并将您的最终答案放在\boxed{}中。"对于HLE,我们还使用官方模板评估了DeepSeekV3.2-Thinking,得分为23.9。
表2 | DeepSeek-V3.2与闭源/开源模型的比较。对于开源模型,我们仅比较支持工具使用思考的模型。粗体数字表示每个模型类别(开源和闭源)中的最佳分数。τ²-Bench结果通过每个类别的平均值计算。关于BrowseComp,使用上下文管理技术的性能用*标记。

DeepSeek-V3.2在推理任务上与GPT-5-high取得了相似的性能,但略逊于Gemini-3.0-Pro。与K2-Thinking相比,DeepSeek-V3.2以显著更少的输出令牌取得了可比的分数,如表3所示。这些性能提升可归因于分配给强化学习训练的计算资源的增加。近几个月来,我们观察到持续的性能改进与扩展的强化学习训练预算相关,该预算已经超过了预训练成本的10%。我们假设,随着额外的计算预算分配,推理能力可能会进一步增强。值得注意的是,本文展示的DeepSeek-V3.2性能受到长度约束奖励模型的限制;取消此限制后,我们观察到模型性能的进一步提升,详见第4.2节。
在代码智能体评估中,DeepSeek-V3.2在SWE-bench Verified和Terminal Bench 2.0上显著优于开源LLM,展示了其在真实世界编码工作流程中的潜力。关于Terminal Bench 2.0,如前所述,我们的"思考模式"上下文管理策略目前与Terminus不兼容;因此,报告的46.4分是使用Claude Code框架实现的。我们还使用Terminus在非思考模式下评估了DeepSeek-V3.2,得分为39.3。对于SWE-bench Verified,主要分数是使用我们的内部框架获得的。在其他设置(包括Claude Code和RooCode框架,以及非思考模式)下的鲁棒性测试产生了一致的结果,范围在72到74之间。
对于搜索智能体评估,我们使用标准的商业搜索API评估我们的模型。由于DeepSeek-V3.2仅支持最大128K的上下文长度,大约20%以上的测试用例超过了此限制。为了解决这个问题,我们采用上下文管理方法来得出最终分数。作为参考,在没有上下文管理的情况下,分数是51.4。更多细节见第4.4节。
在工具使用基准测试上,DeepSeek-V3.2显著缩小了开源和闭源LLM之间的性能差距,尽管仍低于前沿模型。对于τ²-bench,我们使用模型本身作为用户智能体,最终类别得分为63.8(航空公司)、81.1(零售)和96.2(电信)。对于MCP基准测试,我们使用函数调用格式,并将工具输出放在指定为"tool"角色的消息中,而不是"user"角色。在我们的测试中,我们观察到DeepSeek-V3.2经常进行冗余的自我验证,生成过长的轨迹。这种倾向通常导致上下文长度超过128K的限制,特别是在MCP-Mark GitHub和Playwright评估等任务中。因此,这种现象阻碍了DeepSeek-V3.2的最终性能。然而,整合上下文管理策略可以进一步提升性能。我们将此确定为未来工作的方向以及用户的实际考量。即使DeepSeek-V3.2存在此问题,它仍然显著优于现有的开源模型。值得注意的是,由于这些基准测试中使用的环境和工具集在强化学习训练期间未曾遇到过,观察到的改进证明了DeepSeek-V3.2将其推理策略泛化到域外智能体场景的能力。非思考模型在智能体场景中的评估见附录表9。
4.2. DeepSeek-V3.2-Speciale 的结果
表3表明,DeepSeek-V3.2-Speciale通过利用增加的推理令牌实现了卓越的性能,在多个基准测试中超越了最先进的Gemini-3.0-Pro。值得注意的是,如表4所示,这个通用模型在没有针对性训练的情况下,在2025年国际信息学奥林匹克竞赛(IOI)和ICPC世界总决赛(ICPC WF)中达到了金牌级别的表现。此外,通过整合Shao等人(2025)的技术,该模型在复杂证明任务中表现出色,在2025年国际数学奥林匹克竞赛(IMO)和中国数学奥林匹克竞赛(CMO)中达到了金牌门槛5。详细的评估协议见附录D。
然而,DeepSeek-V3.2-Speciale的令牌效率仍然显著低于Gemini-3.0-Pro。为了降低部署成本和延迟,我们在官方DeepSeek-V3.2的训练过程中施加了更严格的令牌约束,旨在优化性能与成本之间的权衡。
表3 | 推理模型的基准测试性能和效率。对于每个基准测试,单元格显示准确性和输出令牌数(以千为单位)。每个基准测试的最高准确性以粗体显示;第二高以下划线标记。

表4 | DeepSeek-V3.2-Speciale在顶级数学和编码竞赛中的表现。对于ICPC WF 2025,我们报告每个成功解决问题的提交数量。DeepSeek-V3.2-Speciale在ICPC WF 2025中排名第2,在IOI 2025中排名第10。

4.3. 合成智能体任务
在本节中,我们进行消融实验以研究合成智能体任务的效果。我们关注两个问题。首先,合成任务是否足够具有挑战性以进行强化学习?其次,这些合成任务的泛化能力如何,即它们能否迁移到不同的下游任务或真实世界环境?
为了解决第一个问题,我们从通用合成的智能体任务中随机抽取50个实例,并评估用于合成的模型和前沿闭源LLM。如表5所示,DeepSeek-V3.2-Exp的准确率仅为12%,而前沿闭源模型最多达到62%。这些结果表明,合成数据包含对DeepSeek-V3.2-Exp和前沿闭源模型都具有挑战性的智能体任务。
为了研究在合成数据上的强化学习能否泛化到不同的任务或真实世界环境,我们将强化学习应用于DeepSeek-V3.2的SFT检查点(记为DeepSeek-V3.2-SFT)。为了排除长思维链和其他强化学习数据的影响,我们仅在非思考模式下对合成智能体任务进行强化学习。然后,我们将该模型与DeepSeek-V3.2-SFT和DeepSeek-V3.2-Exp进行比较,其中DeepSeek-V3.2-Exp仅在搜索和代码环境中使用强化学习训练。如图5所示,在合成数据上进行大规模强化学习相比DeepSeek-V3.2-SFT在τ²-Bench、MCP-Mark和MCP-Universe基准测试上带来了实质性改进。相反,将强化学习限制在代码和搜索场景并不会改善这些基准测试的性能,进一步凸显了合成数据的潜力。
表5 | 不同模型在通用合成任务上的准确率。


图5 | 仅使用合成通用智能体数据对DeepSeek-V3.2-SFT进行强化学习训练。
4.4. 搜索智能体的上下文管理
即使使用扩展的上下文窗口(如128k),智能体工作流程,特别是在基于搜索的场景中,也经常遇到最大长度限制,过早地截断推理过程。这个瓶颈抑制了测试时计算潜力的充分发挥。为了解决这个问题,我们引入了上下文管理,采用简单的策略在令牌使用超过上下文窗口长度的80%时扩展测试时的令牌预算。这些策略包括(1)总结,即总结溢出的轨迹并重新开始新的展开;(2)丢弃75%,即丢弃轨迹中前75%的工具调用历史以释放空间;(3)全部丢弃,即通过丢弃所有之前的工具调用历史来重置上下文(类似于新上下文工具(Anthropic, 2025a))。为了比较,我们还实现了一个并行扩展基线,Parallel-fewest-step,它采样N个独立的轨迹并选择步数最少的轨迹。
我们在BrowseComp基准测试(Wei等人, 2025)上评估这些策略。如图6所示,在不同的计算预算下,上下文管理通过允许模型扩展测试时计算,提供更多空间执行额外的执行步骤,带来了显著的性能提升。例如,总结将平均步数从140步扩展到364步,将性能从53.4提高到60.2。然而,其整体效率相对较低。尽管简单,但全部丢弃在效率和可扩展性方面都表现良好,达到了67.6分,与并行扩展相当,同时使用的步数显著更少。
总之,测试时计算可以通过上下文管理串行扩展,也可以并行扩展,两者都能有效扩展模型的问题解决能力。然而,不同的策略表现出不同的效率和可扩展性。因此,在对模型性能进行基准测试时,考虑实际的计算成本至关重要。同时,寻找串行和并行扩展的最佳组合以最大化效率和可扩展性仍然是未来工作的关键方向。

图6 | 使用不同测试时计算扩展策略的BrowseComp准确率。
5. 结论、局限性与未来工作
在这项工作中,我们介绍了DeepSeek-V3.2,一个有效桥接了计算效率与高级推理能力之间差距的框架。通过使用DSA,我们解决了关键的计算复杂度问题,同时没有牺牲长上下文性能。通过增加计算预算,DeepSeek-V3.2在推理基准测试中取得了与GPT-5相当的性能。最后,我们的大规模智能体任务合成流水线的整合显著增强了工具使用的熟练度,为具有开放LLM的鲁棒且可泛化的AI智能体解锁了新的可能性。此外,我们的高计算变体DeepSeek-V3.2-Speciale,通过IMO和IOI中的金牌成就得到验证,为开放LLM树立了一个里程碑。
尽管取得了这些成就,我们承认与Gemini-3.0-Pro等前沿闭源模型相比存在某些局限性。首先,由于总训练FLOPs较少,DeepSeek-V3.2中的世界知识广度仍然落后于领先的专有模型。我们计划在未来的迭代中通过扩大预训练计算来解决这一知识差距。其次,令牌效率仍然是一个挑战;DeepSeek-V3.2通常需要更长的生成轨迹(即更多的令牌)来匹配像Gemini-3.0-Pro这样的模型的输出质量。未来的工作将集中于优化模型推理链的智能密度以提高效率。第三,解决复杂任务的能力仍然逊色于前沿模型,这促使我们进一步完善我们的基础模型和后训练配方。