DeepSeek发布V3.2系列模型,性能媲美GPT-5与Gemini

**12月1日,深度求索(DeepSeek)正式开源 DeepSeek-V3.2 与 V3.2-Speciale 两款大语言模型。**它们不仅在 国际数学奥林匹克(IMO) 和 国际信息学奥林匹克(IOI) 中达成"金牌级"自动解题能力,更在多项权威基准上 追平 GPT-5,甚至在推理任务上超越它、比肩 Gemini-3.0-Pro。

两款模型有着不同的定位:

DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用智能体任务场景。9月底DeepSeek发布了实验版V3.2-Exp,此次是正式版更新。在公开推理测试中,V3.2达到了GPT-5的水平,仅略低于谷歌的Gemini3 Pro。

DeepSeek-V3.2-Speciale则是此次的重头戏,其目标是"将开源模型的推理能力推向极致,探索模型能力的边界"。据介绍,Speciale是V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力。超越了 GPT-5,并在推理能力上与 Gemini-3.0-Pro 相当。

本次发布的模型突破了三个关键技术点:高效的稀疏注意力机制(DSA)、可扩展的强化学习训练框架,以及大规模智能体任务合成流水线。


一、DSA:让长上下文"又快又准"的稀疏注意力机制

处理 128K 上下文,传统 Transformer 的 O(L²) 注意力机制会迅速吃光显存,拖慢推理速度。

DeepSeek-V3.2 引入自研的 DeepSeek Sparse Attention(DSA),巧妙解决这一难题。

DSA 核心由两部分组成:

  • 闪电索引器:用极少量轻量头(支持 FP8)快速判断哪些历史 token 与当前查询最相关;

  • 细粒度 Top-k 选择:仅保留 2048 个关键 key-value 对参与计算,将复杂度从 O(L²) 降至 O(L·k)。

更关键的是,DSA 并非简单"剪枝",而是通过 两阶段训练(先 KL 对齐密集注意力分布,再端到端稀疏微调),确保性能无损甚至略有提升。在 AA-LCR3、Fiction.liveBench 等长文本推理任务中,V3.2 表现优于前代模型。

在DSA机制的加持下,128K的序列推理成本可以降低60%以上,并且让推理速度提升约3.5倍速度,内存占用则减少70%,同时模型本身的性能没有明显下降,可以说从根本上改变了AI大模型在注意力领域的表现。

根据官方提供的数据,在H800集群上进行AI模型测试时,在序列长度达到128K时,预填充阶段每百万token的成本从0.7美元降到了0.2美元左右,解码阶段则是从2.4美元降到了0.8美元,让DeepSeek V3.2可能成为同级别AI大模型里长文本推理成本最低的模型。


二、可扩展强化学习:RL 预算超预训练 10%,释放推理极限

多数开源模型止步于监督微调(SFT),但 DeepSeek-V3.2 把 强化学习(RL)后训练预算提升至预训练成本的 10% 以上。

基于自研的 Scaling GRPO 算法,团队引入多项稳定性优化:

  • 无偏 KL 正则化,避免低概率 token 被过度优化;

  • 离策略序列掩码,过滤高 KL 散度的噪声样本;

  • Keep Routing 机制,确保 MoE 模型训练与推理路由一致。

这套框架支持 数学、代码、Agent、对齐等多任务联合 RL,避免灾难性遗忘。

效果立竿见影:V3.2 在 AIME、HMMT、GPQA Diamond 上达到 GPT-5 水平;而 V3.2-Speciale 更在 IMO、CMO、ICPC 等竞赛中实现无需专门训练的金牌表现------这不仅是性能突破,更是对"开源能否挑战人类最高智力活动"的有力回应。


三、智能体任务合成流水线:让模型学会"边想边做"

过去,开源模型在工具调用、代码执行、网页操作等 Agent 任务中明显落后。

DeepSeek 的解法是:自己造数据,自己练模型。

团队构建了一套 端到端智能体任务合成流水线,自动生成:

  • 1827 个可验证环境(含 Bash、搜索、数据库、代码解释器等工具);

  • 85,000+ 复杂任务提示(如"三天旅行预算规划""GitHub 代码修复")。

每个任务都配有自动生成的解决方案与验证函数,确保模型只能通过工具调用完成任务,且结果可自动判对。

基于此,DeepSeek-V3.2 首次在开源社区实现 "思考内嵌工具调用"(Thinking-Integrated Tool Use):模型可在推理链任意步骤自主调用工具,并基于结果继续思考------真正从"聊天助手"进化为"智能执行者"。

在 MCP-Universe、BrowseComp、SWE-bench Verified 等未见过的 Agent 基准上,V3.2 显著优于其他开源模型,证明其具备强大的域外泛化能力。

DeepSeek-V3.2 模型地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

DeepSeek-V3.2-Speciale 模型地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

大模型相关课程:

|----|---|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 | 一 | 1.大模型的发展与局限性 |
| 2 | 二 | 1.1 ollama本地快速部署deepseek |
| 3 | 二 | 1.2 linux本地部署deepseek千问蒸馏版+web对话聊天 |
| 4 | 二 | 1.3 linux本地部署通义万相2.1+deepseek视频生成 |
| 5 | 二 | 1.4 Qwen2.5-Omni全模态大模型部署 |
| 6 | 二 | 1.5 Stable Diffusion中文文生图模型部署 |
| 7 | 二 | 1.6 DeepSeek-OCR部署尝鲜 |
| 8 | 二 | 2.1 从零训练自己的大模型概述 |
| 9 | 二 | 2.2 分词器 |
| 10 | 二 | 2.3 预训练自己的模型 |
| 11 | 二 | 2.4 微调自己的模型 |
| 12 | 二 | 2.5 人类对齐训练自己的模型 |
| 13 | 二 | 3.1 微调训练详解 |
| 14 | 二 | 3.2 Llama-Factory微调训练deepseek-r1实践 |
| 15 | 二 | 3.3 transform+LoRA代码微调deepseek实践 |
| 16 | 二 | 4.1 文生图(Text-to-Image)模型发展史 |
| 17 | 二 | 4.2 文生图GUI训练实践-真人写实生成 |
| 18 | 二 | 4.3 文生图代码训练实践-真人写实生成 |
| 19 | 二 | 5.1 文生视频(Text-to-Video)模型发展史 |
| 20 | 二 | 5.2 文生视频(Text-to-Video)模型训练实践 |
| 21 | 二 | 6.1 目标检测模型的发展史 |
| 22 | | 6.2 YOLO模型训练实践及目标跟踪 |
| 23 | 三 | 1.1 Dify介绍 |
| 24 | 三 | 1.2 Dify安装 |
| 25 | 三 | 1.3 Dify文本生成快速搭建旅游助手 |
| 26 | 三 | 1.4 Dify聊天助手快速搭建智能淘宝店小二 |
| 27 | 三 | 1.5 Dify agent快速搭建爬虫助手 |
| 28 | 三 | 1.6 Dify工作流快速搭建数据可视化助手 |
| 29 | 三 | 1.7 Dify chatflow快速搭建数据查询智能助手 |
| 30 | 三 | 2.1 RAG介绍 |
| 31 | 三 | 2.2 Spring AI-手动实现RAG |
| 32 | 三 | 2.3 Spring AI-开箱即用完整实践RAG |
| 33 | 三 | 2.4 LlamaIndex实现RAG |
| 34 | 三 | 2.5 LlamaIndex构建RAG优化与实践 |
| 35 | 三 | 2.6 LangChain实现RAG企业知识问答助手 |

相关推荐
独自归家的兔1 小时前
实测拆解:Qwen3-Max-Thinking 到底能不能对标 GPT-5.2?
gpt
迈火7 小时前
Facerestore CF (Code Former):ComfyUI人脸修复的卓越解决方案
人工智能·gpt·计算机视觉·stable diffusion·aigc·语音识别·midjourney
百***78751 天前
Sora Video2深度解析:AI视频创作的效率革命与生态进化
java·人工智能·gpt
勇气要爆发2 天前
【AI扫盲】大模型(LLM)原理详解:从 DeepSeek 到 GPT-5 全面解析 (2026最新版)
人工智能·gpt·机器学习·llm·微调·多模态·预训练
松涛和鸣2 天前
63、IMX6ULL ADC驱动开发
c语言·arm开发·驱动开发·单片机·gpt·fpga开发
麒qiqi3 天前
嵌入式定时器核心解析:51 单片机 / IMX6ULL (EPIT/GPT) 原理与实战
单片机·嵌入式硬件·gpt
zhaosuyuan4 天前
InstructGPT 2022详细解读
gpt·语言模型·llm·gpt-3
飞鹰515 天前
CUDA高级优化实战:Stream、特殊内存与卷积优化—Week3学习总结
c++·gpt·chatgpt·gpu算力
百***78756 天前
Sora Video2 API国内接入避坑与场景落地:开发者实战笔记
人工智能·笔记·gpt
2301_772204286 天前
ARM——定时器(EPIT GPT)
gpt