DeepSeek-V4 技术硬核解析

DeepSeek-V4 技术硬核解析

论文原文:DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

发布机构:DeepSeek-AI

发布时间:2026年4月24日

原文链接https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf


一、核心概述

1.1 模型定位

DeepSeek-V4 是 DeepSeek AI 推出的新一代大语言模型系列,主题为 "迈向高效的百万 Token 上下文智能"。该系列首次实现了百万 token 上下文的高效处理,使长文档处理从"技术上可行"变为"经济上标配"。

1.2 模型规格

参数 DeepSeek-V4-Flash DeepSeek-V4-Pro
总参数量 284B 1.6T (16,000亿)
激活参数 13B 49B
架构类型 MoE MoE
训练数据量 32T tokens 33T tokens
上下文长度 1M tokens 1M tokens
Transformer 层数 43 61
隐藏维度 d 4096 7168
词表大小 128K 128K
路由专家数 256 384
每 token 激活专家 6 6
定位 高效经济型 旗舰级

1.3 核心创新一览

创新点 类型 核心价值
CSA (压缩稀疏注意力) 注意力机制 稀疏选择,降低计算量
HCA (重压缩注意力) 注意力机制 激进压缩,高效处理长序列
mHC (流形约束超连接) 架构设计 稳定深层网络训练
Muon 优化器 训练优化 加速收敛,提升稳定性
MegaMoE 内核 工程实现 推理加速 1.50~1.96×
OPD (策略蒸馏) 后训练 多专家知识统一

二、架构创新详解

2.1 整体架构

DeepSeek-V4 沿用 Transformer 架构 + Multi-Token Prediction (MTP) 模块,并引入三大关键升级:
Transformer Block
输入
Input Tokens
Embedding
Transformer Block x L
CSA/HCA 注意力层
DeepSeekMoE 前馈网络
mHC 超连接
Pre-Block Mixing
Residual Mixing
Post-Block Mixing
MTP Modules x K
Prediction Head
LM Loss + MTP Loss

2.2 多 Token 预测(MTP)

2.2.1 传统方式 vs MTP
方式 输出 特点
传统 一次预测 1 个 token 串行生成,速度慢
MTP 一次预测 K 个 token 并行生成,更快

MTP (K=3)
Token1
Token2, 3, 4
传统自回归
Token1
Token2
Token3
Token4

2.2.2 DeepSeek-V4 实现

核心设计

  • 共享 Embedding:所有 MTP 模块共享输入 embedding 层
  • 独立预测头:每个 MTP 模块有独立的预测头
  • 逐级预测:第 1 层预测 token 2~K+1,第 2 层预测 token 3~K+2,依次类推

MTP Module K
MTP Module 2
MTP Module 1
隐藏状态
预测头
预测: Token₂
隐藏状态
预测头
预测: Token₃
隐藏状态
预测头
预测: Tokenₖ₊₁
总 Loss
LM_Loss + λ×MTP_Loss

损失函数

复制代码
总 Loss = LM_Loss + λ × MTP_Loss
Loss 全称 作用
LM_Loss Language Model Loss 主损失,优化主模型预测下一个 token
MTP_Loss MTP Loss 辅助损失,优化 MTP 模块预测后续 K 个 token
2.2.3 核心优势
优势 说明
训练信号更丰富 每个位置同时有 K 个预测目标
推理加速 一次生成多个 token,减少生成步数
减少重复 模型学会一次性规划多个 token 的连贯性
增强表示 多层结构提供更好的深层语义表示

💡 一句话总结:MTP 就是让模型"一次猜 K 个字",而不是"一次猜一个字猜 K 次"


2.3 混合注意力架构(CSA + HCA)

2.3.1 设计动机

传统注意力机制在处理长序列时面临两个核心挑战:

  1. 计算复杂度:O(n²) 的注意力计算
  2. KV Cache 存储:长序列需要巨大的显存

DeepSeek-V4 的解决方案是 用压缩换长度------通过混合使用 CSA 和 HCA 两种注意力机制,实现百万 token 上下文的高效处理。

2.2.2 压缩稀疏注意力(CSA)
概念导入:普通注意力机制

在理解 CSA 之前,先回顾标准的多头注意力机制:

复制代码
输入序列: [Token₁, Token₂, Token₃, Token₄, Token₅, ...]

每个 Token 都有三个向量:
  Q (Query): "我在找什么" - 查询向量
  K (Key):   "我是谁"    - 键向量
  V (Value): "我包含什么信息" - 值向量

注意力计算过程:
  1. Token₃ 的 Query 和所有 Token 的 Key 做点积 → 得到注意力分数
  2. Softmax 归一化分数
  3. 用分数对所有 Token 的 Value 加权求和 → 得到输出

问题所在

问题 影响
O(n²) 复杂度 序列越长,计算量爆炸
KV Cache 巨大 1M tokens 需要存储海量 KV 向量,显存不够用 💥

遇到的问题
普通注意力机制
Query
与所有K做点积
Softmax归一化
对V加权求和
KV Cache巨大
计算量爆炸

CSA 的解决思路

核心思想:用压缩换长度

CSA 采用三步流程实现高效注意力:
原始 KV
压缩 m倍
闪电索引器稀疏选择
核心MQA注意力

Step 1: KV 压缩

将连续的 m 个 KV 条目压缩为 1 个条目,使用 Softmax 加权求和 + 可学习位置偏置:

复制代码
CComp_i = Σ(Softmax(Z_a + B_a) ⊙ C_a) + Σ(Softmax(Z_b + B_b) ⊙ C_b)

其中重叠压缩策略确保信息保留的连续性。

📖 公式通俗解读

符号 含义
CComp_i 第 i 个压缩后的 KV 条目(输出)
C_a / C_b Key-Value 对的实际内容
Z_a / Z_b 可学习的查询权重(决定哪些 KV 重要)
B_a / B_b 可学习的位置偏置(考虑位置信息)
Softmax(...) 归一化权重(相加为 1)
逐元素乘法
Σ 加权求和

:根据内容和位置,对 m 个 KV 条目做加权平均,得到 1 个压缩后的 KV 条目

处理流程
KV₁ KV₂ ... KVm
Softmax

计算注意力权重
加权求和

Σ权重×KV
CComp压缩结果

为什么有两套压缩器(a 和 b)?

  • 类似残差连接,使用两套独立的参数
  • 让模型学到更丰富的压缩模式
  • 两者结果相加,保留更多信息
    💡 通俗理解:为什么需要压缩?
对比 普通注意力 CSA 压缩后
处理方式 每个 KV 都参与计算 相邻 m 个 KV 打包成 1 个
比喻 读完一整本书来找答案(慢) 先把每章总结成一句话,再找答案(快)
效果 KV Cache 巨大,显存爆炸 KV Cache 大幅减小,支持更长上下文

压缩示例

复制代码
普通:  [KV₁][KV₂][KV₃][KV₄][KV₅][KV₆]...  ← 100万个
              ↓ 压缩 (m=16)
CSA后: [KV₁₋₁₆][KV₁₇₋₃₂][KV₃₃₋₄₈]...     ← 6.25万个

Step 2: 闪电索引器(Lightning Indexer)

技术实现思路

闪电索引器的核心目标是:从海量压缩 KV 块中,快速定位最相关的那些

为什么需要"索引"?

  • 压缩后的 KV 仍然有数十万个块
  • 全量做注意力计算仍然太慢
  • 需要一个"搜索引擎",根据当前查询快速召回相关块

核心思路:低秩生成 + Top-k 选择

复制代码
┌─────────────────────────────────────────────────────────┐
│                    闪电索引器工作原理                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  当前token的隐藏状态 h_t                                 │
│         ↓                                               │
│  ┌─────────────────────────────────────────────┐       │
│  │ 低秩投影:  h_t → q  (降维压缩)               │       │
│  └─────────────────────────────────────────────┘       │
│         ↓                                               │
│  ┌─────────────────────────────────────────────┐       │
│  │ 生成多组查询向量: q → [q₁, q₂, ..., qₕ]      │       │
│  │ (h=64个索引头,并行计算)                      │       │
│  └─────────────────────────────────────────────┘       │
│         ↓                                               │
│  ┌─────────────────────────────────────────────┐       │
│  │ 对每个查询头,计算与所有KV块的相似度          │       │
│  │ 使用 ReLU 激活函数保留正相关                  │       │
│  └─────────────────────────────────────────────┘       │
│         ↓                                               │
│  ┌─────────────────────────────────────────────┐       │
│  │ Top-k 聚合选择: 选出得分最高的 k 个 KV 块      │       │
│  │ (Flash: k=512, Pro: k=1024)                  │       │
│  └─────────────────────────────────────────────┘       │
│         ↓                                               │
│  输出: 最相关的 k 个压缩 KV 块 → 进入注意力计算          │
│                                                         │
└─────────────────────────────────────────────────────────┘

关键技术细节

技术 作用
低秩投影 避免直接处理完整的 KV 矩阵,降低计算复杂度
多查询头(64头) 类似注意力机制,从不同角度捕捉相关性
ReLU 激活 过滤掉负相关,只保留正相关的 KV 块
Top-k 选择 稀疏注意力,只处理最相关的 k 个块

💡 类比理解:想象你在一个图书馆(压缩 KV 库)中找书:

  • 低秩投影:把你要找的内容压缩成关键词
  • 多查询头:用多个关键词组合从不同角度搜索
  • Top-k:图书馆只返回最相关的 512/1024 本书,而不是全部扫描

Step 3: 共享 KV MQA

选中的压缩 KV 条目同时充当 Key 和 Value,进行分组查询注意力。

📖 什么是 MQA(多查询注意力)?

对比 普通 MHA MQA(多查询注意力)
K 和 V 每个 Query 头有独立的 K 和 V 所有 Query 头共享同一份 K 和 V
计算量 Q_heads × K_heads × V_heads 大幅减少
显存占用 多份 K/V 缓存 只存一份 K/V

通俗理解

复制代码
普通MHA:  10个人各自查10本不同的书  →  100次查询
MQA:      10个人查同一本书          →  10次查询

"共享KV"就是大家共用同一本书!

在 CSA 中的位置

复制代码
选中的压缩KV块
      ↓
  同时充当 K 和 V  ← "共享KV"
      ↓
  多个 Query 头并行查询
      ↓
  得到注意力输出

CSA 配置参数

参数 Flash Pro
压缩率 m 4 4
索引器头数 64 64
索引器头维度 128 128
注意力 top-k 512 1024
2.2.3 重压缩注意力(HCA)

HCA 采用更激进的压缩策略,但不做稀疏选择:

  • 压缩率:m' >> m(论文中 m' = 128)
  • 策略:每 128 个 token 压缩为 1 个 KV 条目
  • 注意力:全量密集注意力(非稀疏)

输入隐藏状态
Token级压缩器
重压缩KV条目
共享KV MQA
滑动窗口 KV条目
输出注意力结果

2.2.4 辅助设计
机制 说明
QK 归一化 核心注意力前对 QK 做 RMSNorm,防止 logit 爆炸
部分 RoPE 仅对最后 64 维施加旋转位置编码
滑动窗口注意力 附加 128 窗口的未压缩 KV,保留局部依赖
Attention Sink 可学习 sink logit,允许注意力头总分数不等于 1
分组输出投影 将 n_h 输出分成 g 组,降低投影计算量
2.2.5 效率对比
指标 相对 V3.2 GQA8 基线
1M 上下文 KV Cache 仅 2%
单 token 推理 FLOPs(Pro) 27%
KV Cache 大小(Pro) 10%

混合精度存储

  • RoPE 维度:BF16
  • 其余部分:FP8
  • 闪电索引器:FP4

2.4 流形约束超连接(mHC)

2.4.1 设计动机

传统残差连接在深层堆叠时存在信号传播不稳定的问题:

  • 信息可能在 skip connection 中被"淹没"
  • 标准超连接训练中数值不稳定
2.4.2 核心创新

mHC 通过三个关键约束确保信号稳定传播:

① 双随机矩阵约束

  • 将残差映射矩阵约束到 Birkhoff 多面体
  • 确保谱范数 ≤ 1
  • 数学保证:||W||_2 ≤ 1

② Sigmoid 约束

  • 输入/输出映射约束为非负有界
  • 避免信号相互抵消

③ 动态参数化

复制代码
映射矩阵 = 静态分量(可学习偏置)+ 动态分量(输入相关)

Sinkhorn-Knopp 迭代

  • 20 次迭代投影到双随机矩阵流形
  • 确保行、列和均为 1
2.4.3 效率数据

"the additional wall-clock overhead of mHC amounts to merely 6.7% of the total time of a pipeline stage"

仅用 6.7% 的额外开销,换来深层网络训练的数值稳定性。

2.5 Muon 优化器

DeepSeek-V4 是 首个在大规模 MoE 模型上成功应用 Muon 的工作。

2.5.1 算法流程

Muon 的核心思想是:用"梯度方向的正交化"替代 AdamW 的"自适应学习率"
步骤三:应用更新
步骤二:正交化迭代 (10步)
步骤一:累积动量


衰减系数
动量缓存
当前梯度
上一步动量
混合 Newton-Schulz 迭代
步数 < 8 ?
快速收敛系数
稳定收敛系数
正交化更新
更新动量
计算更新量
取符号 × 开方梯度
重缩放
权重衰减
参数更新

💡 Muon vs AdamW 的核心区别

方面 AdamW Muon
核心思路 自适应学习率缩放 梯度方向正交化
对梯度的处理 二阶动量归一化 将梯度投影到正交方向
收敛速度 中等 更快(理论上)
内存开销 较多(需存二阶动量) 较少
2.5.2 分区策略

Muon 不是万能的,部分模块仍需使用 AdamW:
小参数量

稳定性优先
大参数量

收敛加速
使用 Muon (主力)
Linear层
MoE专家
注意力参数
使用 AdamW
Embedding
预测头
RMSNorm
mHC门控/偏置
AdamW
Muon

2.5.3 MoE 高效实现

四大优化策略
ZeRO分桶
参数合并
BF16梯度同步
两阶段Reduce
padding开销<10%
减少通信量
通信量减半
避免精度误差


三、训练方法

3.1 预训练

3.1.1 数据构建
  • 数据规模:超过 32T tokens
  • 词表:128K
  • 数据质量
    • 过滤批量自动生成内容(避免模型坍缩)
    • 过滤模板化内容
    • 数学与编程仍是核心
    • 中期加入 agentic 数据
    • 扩大多语言语料
    • 增加长文档数据(科学论文、技术报告)
3.1.2 序列长度课程

4K
16K
64K
1M

渐进式扩展训练上下文长度,最终支持百万 token。

3.1.3 训练稳定性技术

① 预期路由(Anticipatory Routing)

核心思想:使用历史参数计算路由索引,避免同步更新带来的不稳定。
时刻2
时刻1
缓存
获取数据
计算路由索引
特征计算
应用路由索引

实现细节

  • 在 t-Δt 时刻预先获取 t 时刻的数据
  • "预期"计算并缓存路由索引
  • 自动检测机制:仅在 loss spike 触发时激活
  • 额外开销:约 20%

② SwiGLU 钳位

分量 钳位范围
线性分量 [-10, 10]
门控分量上界 10

有效消除离群值,提升训练稳定性。

3.2 后训练:两阶段范式

Base Model
各领域 SFT
各领域 GRPO
多领域专家模型
OPD蒸馏
统一模型

3.2.1 三种推理模式
模式 说明 适用场景
Standard 标准推理 快速响应
High 逻辑分析模式 复杂推理任务
Max 推理极限模式 最具挑战性任务

Max 模式特点:

  • 更长上下文
  • 更低长度惩罚
  • 在最难任务上表现最优
3.2.2 生成式奖励模型(GRM)
  • 摒弃传统标量奖励模型
  • 单独训练的生成式奖励模型,为最终答案和推理过程提供奖励信号
  • 支持灵活的长思维链生成
3.2.3 On-Policy Distillation (OPD)

核心创新:全词表 logit 蒸馏

对比项 传统方法 OPD
KL 损失 token 级 KL 估计 全词表 logit 蒸馏
方差 高方差 更稳定的梯度估计
知识蒸馏 部分 完整保留

教师模型

  • 框架支持无限数量的教师模型(effectively unbounded number of teachers)
  • 采用 ZeRO-like 参数分片按需加载
  • 教师权重量化到 FP4 离线存储

蒸馏目标

复制代码
L_OPD(θ) = Σ w_i · D_KL(π_θ || π_E_i)

四、基础设施创新

4.1 MegaMoE 超级内核

特性 说明
四阶段融合 MoE 的 dispatch、All-to-All、forward、reduce 融合为单一流水线
通用推理加速 1.50~1.96×
适用场景 所有 MoE 推理任务

4.2 TileLang DSL

特性 说明
定位 高效算子开发领域特定语言
固定开销 <1μs/调用
优势 快速迭代新算子

4.3 批次不变性与确定性训练

批次不变性(Batch Invariance)

同一 token 无论在 batch 中什么位置,输出逐位一致

确定性训练(Deterministic)

  • 消除所有 atomicAdd 操作
  • 使用独立累积缓冲区
  • 确保可复现性

4.4 FP4 量化感知训练

模块 量化精度
MoE 专家权重 FP4
CSA 索引器 QK 路径 FP4
其他 BF16/FP8

4.5 KV Cache 管理

4.5.1 异构 KV Cache 布局
类型 说明
SWA KV 滑动窗口注意力未压缩 KV
尾部未压缩 KV HCA 尾部不完整 block
压缩 KV CSA/HCA 核心压缩 KV
4.5.2 磁盘 KV Cache 存储

针对共享前缀复用场景,提供三种策略:

策略 存储开销 计算开销 适用场景
Full SWA Caching 存储充足、计算敏感
Periodic Checkpointing 平衡场景
Zero SWA Caching 存储受限场景

4.6 DSec 沙箱基础设施

DeepSeek Elastic Compute (DSec) 是生产级沙箱平台:
四种执行模式
DSec 核心组件
Apiserver API网关
Watcher 集群监控
Edge 每主机代理
3FS 分布式文件系统
Function Call
Container
microVM
fullVM

设计动机

  1. Agentic 工作负载高度异构
  2. 环境镜像大但需快速加载
  3. 高密度部署需求
  4. 沙箱生命周期需与 GPU 训练协调

五、评测结果

5.1 Base 模型评测

Table 1: Base 模型对比

Benchmark V3.2-Base V4-Flash-Base V4-Pro-Base
Architecture MoE MoE MoE
# Activated Params 37B 13B 49B
# Total Params 671B 284B 1.6T
World Knowledge
MMLU (5-shot) 87.8 88.7 90.1
MMLU-Pro (5-shot) 65.5 68.3 73.5
C-Eval (5-shot) 90.4 92.1 93.1
SimpleQA (25-shot) 28.3 30.1 55.2
Language & Reasoning
BBH (3-shot) 87.6 86.9 87.5
DROP (1-shot) 88.2 88.6 88.7
Code & Math
BigCodeBench (3-shot) 63.9 56.8 59.2
HumanEval (0-shot) 62.8 69.5 76.8
MATH (4-shot) 60.5 57.4 64.5
GSM8K (8-shot) 91.1 90.8 92.6
Long Context
LongBench-V2 (1-shot) 40.2 44.7 51.5

关键发现:V4-Flash 仅 13B 激活参数(远小于 V3.2 的 37B),却在多数 benchmark 上超越 V3.2。

5.2 与闭源模型对比(V4-Pro-Max)

5.2.1 知识领域
Benchmark DeepSeek-V4-Pro-Max Claude-Opus-4.6-Max GPT-5.4-xHigh Gemini-3.1-Pro-High
SimpleQA 57.9 47.2 39.8 45.3
MMLU-Pro 87.5 85.9 78.1 89.1

开源模型中大幅领先,超其他开源模型 20 个百分点

5.2.2 编程能力
Benchmark DeepSeek-V4-Pro-Max Claude-Opus-4.6-Max GPT-5.4-xHigh Gemini-3.1-Pro-High
LiveCodeBench 93.5 88.8 - 91.7
Codeforces Rating 3206 3168 3052 -
SWE Verified 80.6 80.8 75.1 68.5

Codeforces 3206:首次追平闭源模型

5.2.3 Agent 能力
Benchmark DeepSeek-V4-Pro-Max Claude-Sonnet-4.5 Kimi-K2.6 GLM-5.1
Terminal Bench 2.0 67.9 47.2 54.6 48.8
Toolathlon 51.8 - 47.2 -

内部评测:67% vs Sonnet 4.5 的 47%,超越 Sonnet 4.5

5.2.4 数学推理
评测 结果
Putnam-2025 120/120 满分
Frontier 排名 与 Axiom 并列第一
5.2.5 百万 Token 上下文
任务 DeepSeek-V4-Pro Gemini-3.1-Pro Claude Opus 4.6
MRCR 1M 83.5 ~70 ~90
CorpusQA 1M 62.0 ~55 -

在学术基准上超越 Gemini-3.1-Pro

5.3 效率对比

配置 Single-Token FLOPs KV Cache
DeepSeek-V3.2 (基线)
DeepSeek-V4-Pro 0.27× 0.10×

8.3 倍更低的 FLOPs,9.8 倍更低的 KV Cache


六、API 与开源

6.1 模型访问

渠道 地址
Hugging Face https://huggingface.co/collections/deepseek-ai/deepseek-v4
ModelScope https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
API 模型名 deepseek-v4-pro / deepseek-v4-flash
最大上下文 1M tokens
推理模式参数 reasoning_effort: high / max

6.2 定价策略

  • 日间价格:标准定价
  • 夜间价格:半价优惠

七、局限与未来方向

方向 说明
架构复杂度 保留了许多已验证组件,未来需精简为更优雅设计
理论理解 Anticipatory Routing 和 SwiGLU Clamping 有效但原理不清
新维度稀疏性 将探索更稀疏的 embedding 模块
低延迟架构 长上下文部署的响应速度仍需优化
多模态能力 尚未集成
数据策展 持续改进数据策略

八、技术术语表

术语 全称 说明
MoE Mixture of Experts 混合专家架构
CSA Compressed Sparse Attention 压缩稀疏注意力
HCA Heavily Compressed Attention 重压缩注意力
mHC Manifold-Constrained Hyper-Connections 流形约束超连接
MTP Multi-Token Prediction 多 token 预测
MQA Multi-Query Attention 多查询注意力
GQA Grouped Query Attention 分组查询注意力
EP Expert Parallelism 专家并行
ZeRO Zero Redundancy Optimizer 零冗余优化器
GRPO Group Relative Policy Optimization 群体相对策略优化
OPD On-Policy Distillation 策略蒸馏
DSec DeepSeek Elastic Compute 深度求索弹性计算
RoPE Rotary Position Embedding 旋转位置编码
SWA Sliding Window Attention 滑动窗口注意力

九、总结

DeepSeek-V4 代表了以下突破:

9.1 架构效率革新

  • CSA/HCA 混合注意力:百万 token 上下文 KV Cache 仅需 2%
  • mHC:6.7% 额外开销换训练稳定
  • Muon:首个大规模 MoE 成功应用

9.2 能力边界拓展

  • 开源最强编程:Codeforces 3206,追平闭源
  • 数学满分:Putnam-2025 120/120
  • Agent 超越:67% vs Sonnet 4.5 的 47%

9.3 工程落地

  • 华为昇腾支持:首次脱离 CUDA,拥抱国产算力
  • MegaMoE 内核:推理加速 1.50~1.96×
  • DSec 平台:生产级 Agent 训练基础设施

9.4 战略意义

  • 目标估值 200 亿美元
  • API 夜间半价:扩大开发者生态
  • 为 Agent 时代奠定基础设施

本文档基于 DeepSeek-V4 原文 (58页技术报告) 整理,发布时间:2026年4月24日

相关推荐
Rubin智造社4 小时前
04月24日AI每日参考:GPT-5.5正式发布,DeepSeek获腾讯阿里争相入局
人工智能·claude code·deepseek v4·gpt-5.5·deepseek融资
easyllm10 小时前
DeepSeek-V4 上架 NoneLinear
智能体·大模型api·deepseek v4·开源旗舰·1m上下文·dsa稀疏注意力
youcans_13 小时前
【DeepSeek论文精读】18. DeepSeek-V4:迈入百万上下文的普惠智能]
人工智能·大语言模型·技术报告·deepseek v4
Rubin智造社8 天前
04月17日AI每日参考:Claude Opus 4.7正式发布,智元机器人大会今日开幕
大数据·人工智能·机器学习·claude code·智元机器人·deepseek v4·claude opus 4.7
Rubin智造社15 天前
04月10日AI每日参考:GPT-6训练完成倒计时,DeepSeek V4即将全华为芯片亮相
物理ai·deepseek v4·meta muse spark·gpt-6·华为昇腾、·qwen3.6-plus·豆包ai播客
wxl7812273 个月前
DeepSeek V4 深度解读——从“堆参数”到“双轴稀疏”的大模型架构革命
论文解读·deepseek v4