DeepSeek新一代大模型DeepSeek V4深度调研分析

调研截至 :2026 年 5 月 4 日
发布日期 :2026 年 4 月 24 日(预览版)
信息来源:DeepSeek 技术报告、DeepInfra、Digital Trends、BuildFastWithAI、CSDN DeepSeek 技术社区、腾讯云开发者社区、SegmentFault、AI 铺子、掘金、用你 AI 等


一、公司概览

维度 信息
公司名称 杭州深度求索人工智能基础技术研究有限公司(DeepSeek)
成立时间 2023 年 7 月(由幻方量化孵化)
总部 浙江杭州
创始人 梁文锋(持有 DeepSeek 多数股权)
母公司 幻方量化(浙江九章资产管理有限公司)
融资状态 长期不接受外部融资;2026 年 4 月 V4 发布同期,腾讯与阿里巴巴据报洽谈投资,目标估值从 100 亿美元上调至 逾 200 亿美元(首次外部融资)
团队规模 DeepSeek 约 140 人,平均年龄不足 30 岁(幻方量化核心团队含奥林匹克金牌、ACM 金牌得主)
算力资产 约 10,000 张 GPU(英伟达 H800/A100 为主),V4 发布时首次以华为昇腾 910B 为优先推理平台

资金来源 :幻方量化 2025 年平均收益率 56.55%,管理规模逾 700 亿元,业内估算单年收入超 7 亿美元------这是 DeepSeek 不依赖外部融资、持续保持高投入的核心底气。


二、产品概览:DeepSeek V4

2.1 双版本定位

版本 总参数 激活参数 上下文 最大输出 预训练数据 定位
V4-Pro 1.6T 49B 1M tokens 384K tokens 33T tokens 旗舰,复杂推理 / Agent / 高强度代码
V4-Flash 284B 13B 1M tokens 384K tokens 32T tokens 高效经济,轻量 Agent / 日常场景

注:V4-Flash 并非 V4-Pro 的蒸馏版,而是独立训练的 MoE 模型,架构与 Pro 相同,仅在专家数量与层数上做精简。

发布方式:无预警发布,同日在 Hugging Face 和 ModelScope 全量开源(MIT 协议),与 OpenAI 发布 GPT-5.5 时间差不足 24 小时。

2.2 三大架构创新

① DSA2 混合稀疏注意力------让 1M 上下文真正可用

V4 核心难题不是"支持百万 token",而是"在百万 token 下还能跑得动"。

DeepSeek 通过三种注意力的组合:

注意力类型 作用 比喻
HCA(重度压缩,128:1) 全局信息概览 目录 / 广角镜
CSA(压缩稀疏,精选1024块) 保留关键细节 长焦镜
SWA(局部窗口128) 当前上下文精确度 放大镜

效果

  • V4-Pro @ 1M context → 推理 FLOPs 仅为 V3.2 的 27% ,KV Cache 降至 10%

  • V4-Flash @ 1M context → 推理 FLOPs 仅为 V3.2 的 10% ,KV Cache 降至 7%

② mHC 流形约束超连接------稳定 61 层深网训练

V4-Pro 有 61 层 transformer。用 Sinkhorn-Knopp 迭代生成双随机矩阵约束信号放大倍数,将训练梯度波动控制在 2 倍 以内(传统无约束模型高达 3000 倍),仅增加 6.7% 计算开销,使 1.6T 参数模型收敛成功率提升至 92%

③ OPD + GRM 训练范式------全方位无短板
  • OPD(On-Policy Distillation):独立训练 10+ 个领域专家模型(数学、代码、写作、STEM......),通过全词汇 logit 蒸馏融合进单一模型,消除传统 RLHF 的"偏科"现象

  • GRM(生成式奖励模型):输出详细推理过程而非单一打分("这里公式正确,但系数代入有误"),从"打分"升级为"一对一辅导反馈"

④ Engram 条件记忆模块(可选)

将 KV Cache 中的冗余历史信息动态压缩为低维向量,存于 NVMe SSD,推理时按需召回。1M token 大海捞针测试准确率从 84.2% → 97%


三、基准测试

3.1 全面基准(V4-Pro vs 顶尖闭源模型)

基准 V4-Pro (Max) GPT-5.4 Gemini 3.1 Pro Claude Opus 4.6
LiveCodeBench (Pass@1) 93.5 --- 91.7 88.8
Codeforces (Rating) 3206 3168 3052 ---
SWE-Bench Verified 80.6 --- 80.6 80.8
GPQA Diamond 90.1 93.0 94.3 91.3
MMLU (5-shot) 90.1 92.0 92.7 ---
MATH-500 96.1 94.5 --- ---
HMMT 2026 数学 95.2 97.7 94.7 96.2
IMOAnswerBench 89.8 91.4 81.0 75.3
MRCR 1M 长上下文 83.5 --- 76.3 92.9
Terminal Bench 2.0 67.9 75.1 68.5 65.4
Toolathlon 51.8 54.6 48.8 47.2
SuperCLUE 综合(国内) 70.98 --- --- ---

分析

  • 赢面:编码(LiveCodeBench 全球第一)、竞技编程(Codeforces 全球最强开源)、数学(MATH-500 超 GPT-5)、SWE-Bench 开源 SOTA

  • 持平:SWE-Bench 与 Claude Opus 4.6 差 0.2 个百分点

  • 落后:世界知识(MMLU/GPQA 仍落后顶尖闭源)、长上下文检索(MRCR 落后 Claude Opus 4.6 约 9 个百分点)、系统操作(Terminal Bench 落后 GPT-5.4)

  • 整体判断:开源 SOTA,与闭源前沿差距约 3~6 个月

3.2 V3.2 → V4-Pro 进化幅度(SuperCLUE 六维)

维度 进化幅度
Agent 能力 +20 分
指令遵循 +12 分
数学推理 +10 分
代码生成 +8 分

四、定价与成本竞争力

4.1 官方 API 定价(标准价,促销结束后)

模型 输入(缓存未命中) 输入(缓存命中) 输出
V4-Flash $0.14 / M $0.028 / M $0.28 / M
V4-Pro $1.74 / M $0.145 / M $3.48 / M

促销(至 2026-05-31) :V4-Pro 打七五折,输入 0.435 / M,输出 0.87 / M

国内人民币定价:V4-Flash 输入 0.2 元 / M,输出 2 元 / M;V4-Pro 输入 1 元 / M,输出 24 元 / M

4.2 与主要竞品价格对比

模型 平均 Token 成本 与 V4 Flash 比
DeepSeek V4-Flash $0.32 / M avg 基准
DeepSeek V4-Pro 0.87\~3.48 / M 3~10×
Qwen 3.5 $1.14 / M avg ~3.5×
MiniMax M2.7 $0.75 / M avg ~2.3×
GPT-5.4 $8.75 / M avg 27×
Claude Sonnet 4.7 $9.00 / M avg 28×
Gemini 3.1 Pro $7.00 / M avg 22×

极端案例 :开发者实测同等工作负载,GPT-4o 月费 380 美元,Claude Opus 4.5 约 720 美元,DeepSeek V4 仅 18 美元

4.3 定价战略逻辑

  • V3 训练成本:557 万美元(公开披露),V4 训练成本未披露但按规模推算约 5000 万~1 亿美元量级

  • 核心逻辑:幻方量化年均约 7 亿美元现金流,可持续支撑低价策略------这是 OpenAI/Anthropic 靠 API 收入盈利的商业逻辑所不具备的

  • 旧 API(deepseek-chat / deepseek-reasoner)将于 2026-07-24 停用


五、核心能力拆解

5.1 推理模式设计

不再区分"聊天模型"与"推理模型"------V4 统一为单一模型 ID,通过参数控制推理强度:

模式 参数 适用场景
非思考(快速) thinking: disabled 日常对话、文案生成
思考(默认) reasoning_effort=high 代码调试、数学推导
深度思考 reasoning_effort=max 竞赛编程、科研推理

5.2 Agent 能力

  • 工具调用:原生支持函数调用、代码解释器、文件操作

  • 兼容主流 Agent 框架:Claude Code、OpenClaw("龙虾")、CodeBuddy

  • 支持 338 种编程语言,可一次性理解数十万行跨文件代码库

  • 内部实测:代码 Agent 使用体验优于 Claude Sonnet 4.5,交付质量接近 Claude Opus 4.6 非思考模式

5.3 多模态(尚未完全开源)

原生统一架构:

  • 图像:ViT-14B 编码,每图 256 视觉 token

  • 视频:1fps 采样,支持最长 10 分钟视频

  • 音频:支持中(多模态权重预计 Q3 开源)

5.4 国产算力适配(战略级)

首个宣称不依赖英伟达的前沿大模型:

  • 早期访问权独家开放给华为昇腾、寒武纪,未给英伟达/AMD 早期适配

  • V4-Pro 在昇腾 950PR 上推理时延 20ms,V4-Flash 10ms

  • 昇腾 950PR 算力达英伟达 H20 的 2.87 倍(对华合规芯片中的最高规格)

  • 全面适配华为 CANN 8.0,完成从 CUDA 的底层代码迁移(据报为 V4 多次延期的核心原因之一)


六、市场策略

目标客户

  • 开发者和 AI 团队(低成本 API 降低试错门槛)

  • 企业级客户(私有化部署 + 国产算力 + 数据安全合规)

  • 中国政府与国企(全链路国产化是独特壁垒)

渠道策略

  • 直接 API(platform.deepseek.com

  • Hugging Face / ModelScope 开源分发

  • 兼容 OpenAI + Anthropic 接口格式,降低迁移成本------"仅修改 model_name 即可"

定价战略:持续以"效率优先"哲学压低价格,目的不是短期盈利而是争取开发者生态份额,为未来变现(to-B、私有化部署、国产算力捆绑)奠基。

技术叙事:在幻方量化技术报告结尾引《荀子》------"不诱于誉,不恐于诽,率道而行,端然正己"------定调长期主义,对比硅谷融资驱动的短期 KPI 文化形成鲜明反差。


七、团队与融资

维度 信息
创始人 梁文锋(浙大电子信息工程本科,AI 量化交易起家)
DeepSeek 团队 约 140 人,均龄 <30,奥林匹克/ACM 竞赛背景为显著特征
研发预算来源 幻方量化研发预算,年可用资金估算 ≥7 亿美元
历史融资 无外部融资(梁文锋已停止为幻方引入外部资金)
2026 年新融资 腾讯 + 阿里巴巴据报洽谈投资,估值 >200 亿美元(首次)
GPU 资产 约 10,000 卡(英伟达 H800 为主,增补昇腾 910B)

幻方量化弹药

  • 管理规模:>700 亿元

  • 2025 年收益率:56.55%(中国百亿量化第二)

  • 近五年收益均值:114.35%

  • 估算年现金流:>7 亿美元 → V4 训练成本的数十倍


八、SWOT 分析

分析
优势 (S) 编码能力全球开源第一(Codeforces 3206、LiveCodeBench 93.5);1M 上下文效率全球最优(FLOPs 仅 V3.2 的 27%);定价碾压式优势(比 Claude 便宜 90%+);幻方量化作为"永久资金池"保证长期研发不断粮
优势 (S) 与国产算力(华为昇腾)深度捆绑,在美国 GPU 出口管制背景下是中国政府/国企的唯一选择
优势 (S) MIT 协议完全开源------生态飞轮效应,开发者可基于 V4 二次开发,反哺能力持续改进
弱点 (W) 世界知识(MMLU/GPQA)仍落后 GPT-5.4 和 Gemini 3.1 约 3%~4%;长上下文检索(MRCR)落后 Claude Opus 4.6 约 9%;系统操作(Terminal Bench)落后 GPT-5.4 约 7%
弱点 (W) 多模态权重尚未开源(Q3 才开源),视觉能力暂时只在 API 可用;高难度科学推理(生物遗传学、量子化学等)落后闭源模型 15~20 个百分点
弱点 (W) 上下文超 80 万 tokens 时存在一定幻觉风险;图像生成分辨率仅 512×512
机会 (O) Agent 时代来临------V4 的 1M 上下文 + 高效推理 + 工具调用正是 Agent 基础设施的核心需求,时机极好
机会 (O) 国产算力替代趋势------华为昇腾 950 超节点即将批量上市,V4 有望大幅降价,进一步扩大市场份额
威胁 (T) GPT-5.5 同日发布(上下文 200 万 token),Gemini 3.1 Pro 在多知识维度持续领先------闭源模型有更多资本和 RLHF 数据投入
威胁 (T) 首次融资(腾讯/阿里)可能带来商业化压力,影响梁文锋坚持的长期主义文化
威胁 (T) 核心人才流失:罗福莉已被小米挖走,团队对 DeepSeek 方法论的掌握正在"扩散"至竞争对手

九、竞品对比矩阵

维度 DeepSeek V4-Pro 小米 MiMo-V2.5-Pro Kimi K2.6 Claude Opus 4.6
总参数 1.6T 1.02T 1.1T 未公开
激活参数 49B 42B --- ---
上下文 1M 1M 1M 200K
开源协议 MIT MIT 不详 闭源
定价(输出) $3.48/M $3/M --- $75/M
LiveCodeBench 93.5 --- --- 88.8
SWE-Bench 80.6 57.2(Pro版) --- 80.8
Codeforces 3206 --- --- ---
国产芯片适配 ✅ 华为昇腾 950 ✅ 部分支持 ---
多模态 文本/图像/视频(开发中) 文本/图像/音频/视频 --- 文本/图像
Agent 框架 OpenClaw / Claude Code MiMo Claw --- Claude Code

十、战略意义

信号 1:1M 上下文"普惠化"------行业拐点来临

DeepSeek V4 将 1M 上下文从"昂贵的旗舰功能"变成"两个版本的默认配置",且成本不增反降。这意味着 Agent 的长程任务规划壁垒正在被消除。任何不支持 1M 上下文的竞品在 2026 年下半年将面临实质性的说服力下降。

信号 2:开源逼近闭源------定价护城河崩塌

V4-Pro 的 SWE-Bench 分数(80.6%)与 Claude Opus 4.6(80.8%)仅差 0.2%,但价格是其 1/22。这对任何依赖"性能溢价"逻辑的闭源商业模式都是直接威胁。

信号 3:国产算力捆绑------地缘壁垒成为新护城河

在美国 GPU 禁运背景下,DeepSeek V4 是唯一能在昇腾芯片上流畅运行的前沿大模型。这意味着中国政府/国企/金融等合规敏感客户实际上没有替代选择------DeepSeek 的国产化路径不只是爱国叙事,而是真实的采购壁垒

信号 4:幻方"永久资金"叠加首次融资

腾讯+阿里的潜在投资给了 DeepSeek 额外的算力和分发资源,但也引入了商业化压力。如果 DeepSeek 在 H2 2026 发生策略漂移(提价、限速、去开源),将是重要的战略窗口期

信号 5:DeepSeek 系人才扩散已成事实

罗福莉(MiMo)已将 DeepSeek 的 MoE 方法论带入小米。DeepSeek 内部对外交流极少(梁文锋几乎不公开讲话),但方法论已通过论文和人才流动扩散------这加速了整个行业向 DeepSeek 范式收敛。

相关推荐
Cx330❀1 小时前
深度解析:从原理到实战,一文吃透 Linux 信号机制(上)
大数据·linux·运维·服务器·人工智能·elasticsearch
smallyoung2 小时前
RAG质量评估全攻略:RAGAS四维指标 + 生产级监控实战
人工智能·后端
code_pgf2 小时前
openclaw的gateway详解
人工智能·gateway
生成论实验室2 小时前
《事件关系阴阳博弈动力学:识势应势之道》第十一篇:双脑协同——WOLM与大模型的共生智能
人工智能·算法·语言模型·架构·创业创新
MATLAB代码顾问2 小时前
LoRA大模型微调:轻量化训练新范式
人工智能
互联网推荐官2 小时前
上海大模型应用开发全景解析:技术路线、场景落地与服务商选择指南
人工智能·软件工程
wuxinyan1232 小时前
大模型学习之路006:RAG 零基础入门教程(第三篇):BM25 关键词检索与混合检索实战
人工智能·学习·rag
lilihuigz2 小时前
WordPress AI代理:开源CMS如何成为智能网络操作系统的核心驱动力 - WP站长
人工智能·开源·cms
不知名的老吴2 小时前
一文看懂:针对大语言模型的提示注入攻击
人工智能·语言模型·自然语言处理