DeepSeek发布V3.2系列模型，性能媲美GPT-5与Gemini

**12月1日，深度求索（DeepSeek）正式开源 DeepSeek-V3.2 与 V3.2-Speciale 两款大语言模型。**它们不仅在国际数学奥林匹克（IMO）和国际信息学奥林匹克（IOI）中达成"金牌级"自动解题能力，更在多项权威基准上追平 GPT-5，甚至在推理任务上超越它、比肩 Gemini-3.0-Pro。

两款模型有着不同的定位:

DeepSeek-V3.2的目标是平衡推理能力与输出长度，适合日常使用，例如问答场景和通用智能体任务场景。9月底DeepSeek发布了实验版V3.2-Exp，此次是正式版更新。在公开推理测试中，V3.2达到了GPT-5的水平，仅略低于谷歌的Gemini3 Pro。

DeepSeek-V3.2-Speciale则是此次的重头戏，其目标是"将开源模型的推理能力推向极致，探索模型能力的边界"。据介绍，Speciale是V3.2的长思考增强版，同时结合了DeepSeek-Math-V2的定理证明能力，该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力。超越了 GPT-5，并在推理能力上与 Gemini-3.0-Pro 相当。

本次发布的模型突破了三个关键技术点：高效的稀疏注意力机制（DSA）、可扩展的强化学习训练框架，以及大规模智能体任务合成流水线。

一、DSA：让长上下文"又快又准"的稀疏注意力机制

处理 128K 上下文，传统 Transformer 的 O(L²) 注意力机制会迅速吃光显存，拖慢推理速度。

DeepSeek-V3.2 引入自研的 DeepSeek Sparse Attention（DSA），巧妙解决这一难题。

DSA 核心由两部分组成：

闪电索引器：用极少量轻量头（支持 FP8）快速判断哪些历史 token 与当前查询最相关；
细粒度 Top-k 选择：仅保留 2048 个关键 key-value 对参与计算，将复杂度从 O(L²) 降至 O(L·k)。

更关键的是，DSA 并非简单"剪枝"，而是通过两阶段训练（先 KL 对齐密集注意力分布，再端到端稀疏微调），确保性能无损甚至略有提升。在 AA-LCR3、Fiction.liveBench 等长文本推理任务中，V3.2 表现优于前代模型。

在DSA机制的加持下，128K的序列推理成本可以降低60%以上，并且让推理速度提升约3.5倍速度，内存占用则减少70%，同时模型本身的性能没有明显下降，可以说从根本上改变了AI大模型在注意力领域的表现。

根据官方提供的数据，在H800集群上进行AI模型测试时，在序列长度达到128K时，预填充阶段每百万token的成本从0.7美元降到了0.2美元左右，解码阶段则是从2.4美元降到了0.8美元，让DeepSeek V3.2可能成为同级别AI大模型里长文本推理成本最低的模型。

二、可扩展强化学习：RL 预算超预训练 10%，释放推理极限

多数开源模型止步于监督微调（SFT），但 DeepSeek-V3.2 把强化学习（RL）后训练预算提升至预训练成本的 10% 以上。

基于自研的 Scaling GRPO 算法，团队引入多项稳定性优化：

无偏 KL 正则化，避免低概率 token 被过度优化；
离策略序列掩码，过滤高 KL 散度的噪声样本；
Keep Routing 机制，确保 MoE 模型训练与推理路由一致。

这套框架支持数学、代码、Agent、对齐等多任务联合 RL，避免灾难性遗忘。

效果立竿见影：V3.2 在 AIME、HMMT、GPQA Diamond 上达到 GPT-5 水平；而 V3.2-Speciale 更在 IMO、CMO、ICPC 等竞赛中实现无需专门训练的金牌表现------这不仅是性能突破，更是对"开源能否挑战人类最高智力活动"的有力回应。

三、智能体任务合成流水线：让模型学会"边想边做"

过去，开源模型在工具调用、代码执行、网页操作等 Agent 任务中明显落后。

DeepSeek 的解法是：自己造数据，自己练模型。

团队构建了一套端到端智能体任务合成流水线，自动生成：

1827 个可验证环境（含 Bash、搜索、数据库、代码解释器等工具）；
85,000+ 复杂任务提示（如"三天旅行预算规划""GitHub 代码修复"）。

每个任务都配有自动生成的解决方案与验证函数，确保模型只能通过工具调用完成任务，且结果可自动判对。

基于此，DeepSeek-V3.2 首次在开源社区实现 "思考内嵌工具调用"（Thinking-Integrated Tool Use）：模型可在推理链任意步骤自主调用工具，并基于结果继续思考------真正从"聊天助手"进化为"智能执行者"。

在 MCP-Universe、BrowseComp、SWE-bench Verified 等未见过的 Agent 基准上，V3.2 显著优于其他开源模型，证明其具备强大的域外泛化能力。

DeepSeek-V3.2 模型地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale 模型地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

大模型相关课程：