DeepSeek V4 × 华为昇腾:国产AI算力推理适配的实质性进展
重要更正(2026年4月25日): 本文初稿曾使用"全流程迁移""里程碑式跨越"等表述,后经核实,需明确以下事实:V4 及 V4-Pro 的预训练仍在英伟达 H800/H100 上完成;V4-Flash 后训练由昇腾完成;当前对外开放的 API 推理运行在昇腾上,但部分优化依赖 CUDA 生态下的算子实现,并非完整的"去 CUDA 化"。本文已据此全面修正,对初稿的不准确表述深表歉意。
引言:推理层的适配,意义在哪
2026年4月24日,深度求索(DeepSeek)正式发布 DeepSeek-V4 系列模型预览版,并同步开源。同日,华为昇腾 CANN 官方 B 站账号完成独家直播解读------DeepSeek 在官方技术报告中列出了华为昇腾适配方案,这是全球头部开源大模型首次在国产 AI 芯片上提供推理服务。
需要说清楚的是:预训练仍是英伟达芯片主导,昇腾适配主要体现在推理层。但这个层面的适配,对国产 AI 算力的商业化落地而言,意义同样值得认真拆解。
本文从技术架构、算力适配现状、生态影响三个维度,梳理这次发布的核心信息。
一、DeepSeek V4 技术架构:三个创新改变游戏规则
1.1 MoE 双版本:旗舰与轻量并行
DeepSeek V4 分为两个版本,均采用 MoE(Mixture of Experts,混合专家)架构:
| 版本 | 总参数量 | 激活参数 | 上下文窗口 | 精度 |
|---|---|---|---|---|
| V4-Pro(旗舰版) | 1.6 万亿(1.6T) | 490亿 | 100万 Token | FP4 + FP8 混合精度 |
| V4-Flash(经济版) | 2840亿(284B) | 130亿 | 100万 Token | FP4 + FP8 混合精度 |
两个版本的预训练数据均超过 32T tokens,训练规模在开源领域前所未有。V4-Pro 每次推理仅激活约 3% 的参数(MegaMoE 架构),实现极致的推理效率。
注:V4 及 V4-Pro 的预训练在英伟达 H800/H100 集群上完成(技术报告第16页明确)。
1.2 创新一:混合注意力架构(CSA + HCA)
这是 V4 最核心的技术突破。DeepSeek 团队引入了两层注意力压缩机制:
- CSA(Compressed Sequence Attention,压缩序列注意力):对局部上下文进行压缩,降低冗余。
- HCA(Hyper-Compressed Attention,重度压缩注意力):对全局上下文做深度压缩,保留核心信息。
实测效果:在 100万 Token 超长上下文下,单 Token 推理 FLOPs 降至 V3.2 的 27%,KV Cache 显存占用降至 10%。 这意味着,在不牺牲模型能力的前提下,推理成本大幅降低。
1.3 创新二:流形约束超连接(mHC)
在深层 Transformer 中引入流形约束(Manifold Hyper-Connection) ,目的是解决超大规模 MoE 路由中一个关键问题:深层梯度弥散导致的专家激活分布坍缩。
简单来说:当模型变得极深时,深层的"专家"会因为梯度信号减弱而逐渐趋同,失去多样性。mHC 通过约束信号在流形空间的传播路径,让深层网络依然能保持稳定的信号流动,保证专家路由的有效性。
1.4 创新三:Muon 优化器
V4 弃用了传统的 AdamW ,转而采用团队自研的 Muon 优化器。
Muon 基于矩阵正交化机制做动量更新,核心思路是:在每一步更新时,让梯度矩阵尽量"正交"------这样可以避免传统 AdamW 中动量累积导致的参数空间偏移问题。
在超过 32T tokens 的超大规模训练中,团队验证了 Muon 收敛更快、最终损失更低的优势。这是优化器层面一次值得关注的范式转变。
1.5 V4-Pro 核心性能 Benchmark
| 评测维度 | 指标 | 说明 |
|---|---|---|
| 代码能力 | Codeforces 3206 | 开源模型全球最高分 |
| 代码生成 | LiveCodeBench 93.5% | - |
| 代码补全 | HumanEval 76.8% | - |
| 工程修复 | SWE Verified 80.6% | 官方自测 |
| 研究生级科学推理 | GPQA Diamond 90.1 | - |
| 中文综合 | C-Eval 93.1 | - |
| 多学科综合 | MMLU 90.1 | - |
| 长上下文召回 | MRCR 1M 83.5 | 百万 Token 级 |
| 长文档问答 | CorpusQA 1M 62.0 | 百万 Token 级 |
二、华为昇腾适配:推理层面的实质性进展
2.1 准确的说法是什么
先说清楚,避免混淆:
- 预训练:V4 及 V4-Pro 在英伟达 H800/H100 上完成(技术报告明确)
- 后训练:V4-Flash 的后训练在华为昇腾上完成
- 推理:当前对外开放的 API 推理在昇腾上运行
- 部分 CUDA 依赖:技术报告中提到的部分核心优化算子,属于 CUDA 独有,昇腾侧尚无完全等效实现
所以准确的定位是:DeepSeek V4 在华为昇腾上完成了推理层面的适配部署,V4-Flash 后训练由昇腾完成;但预训练仍是英伟达主导,推理层部分优化仍依赖 CUDA 生态。这是一个有意义的进展,但说成"完整迁移"或"全流程去 CUDA 化"是不准确的。
2.2 为什么推理适配仍然重要
即便如此,推理层面的适配意义不应被低估:
第一,推理是模型与用户接触的最后一环,也是数据处理发生的阶段。推理在昇腾上运行,意味着用户请求的数据处理发生在国产算力节点上------这个层面的数据安全意义是真实的。
第二,V4-Flash 后训练在昇腾上完成,证明昇腾具备承接主流大模型后训练任务的能力。这是从"能推理"到"能训练"的关键一步。
第三,实测数据显示,昇腾 950P 单卡推理性能达到英伟达 H20 的 2.87 倍(多卡场景下差距会缩小,但单卡数字仍有参考价值)。这说明昇腾在推理效率上已具备商业竞争能力。
2.3 硬件路线:昇腾 950 系列
DeepSeek V4 推理采用的硬件路线:
- 昇腾 950PR:负责 Prefill(预填充)阶段的并行推理计算
- 昇腾 950DT:负责 Decode(解码)阶段
注:当前 V4-Pro 推理吞吐量受限,主要原因是昇腾 950 尚未量产(预计2026年下半年批量上市)。届时推理吞吐将大幅提升,API 价格也会随算力供给增加而下调。
2.4 挑战还在:CUDA 生态的深度依赖
需要清醒看到的是,昇腾与英伟达的差距不仅在芯片硬件本身:
- 算子完整性:CUDA 生态有数千个底层算子(cuBLAS、cuDNN 等),昇腾 CANN 的等效覆盖仍在快速补齐中,技术报告提到的部分优化算子属于 CUDA 独有。
- 多卡互联带宽:昇腾 HCCS 通信带宽目前仍落后于英伟达 NVLink,多卡推理效率差距比单卡更明显。
- 工具链成熟度:CUDA 生态经过十几年打磨,工具链的完备性和调试体验仍有明显优势。
三、国产 AI 芯片全生态响应:8家适配的意义
3.1 推理适配快速扩展
DeepSeek V4 发布后,寒武纪、海光信息、摩尔线程、沐曦股份、昆仑芯、平头哥(真武)、天数智芯等 7 家国产 AI 芯片厂商在不到 24 小时内完成了推理层面的适配支持。
| 芯片厂商 | 适配状态 |
|---|---|
| 华为昇腾 | 深度适配,官方直播解读 |
| 寒武纪 | 基于 vLLM 完成适配,代码已开源 |
| 海光信息 | 完成推理适配 |
| 摩尔线程 | 完成推理适配 |
| 沐曦股份 | 完成推理适配 |
| 昆仑芯 | 完成推理适配 |
| 平头哥(真武) | 完成推理适配 |
| 天数智芯 | 完成推理适配 |
3.2 智源 FlagOS 的角色
智源研究院的 FlagOS(开源模型操作系统) 完成了 DeepSeek V4-Flash 在多款国产 AI 芯片上的推理适配支持。这意味着:国产 AI 算力的推理生态正在形成统一的标准接口,降低了用户切换算力平台的迁移成本。
3.3 云服务商跟进
华为云、腾讯云、天翼云等云服务商同步上线了 DeepSeek V4 的昇腾推理服务,用户可以直接通过 API 调用,无需自建算力基础设施。
四、战略意义:三点清醒的判断
4.1 推理国产化是真实进展,但预训练差距仍在
DeepSeek V4 在昇腾上跑推理、且 V4-Flash 后训练由昇腾完成------这验证了一条路径:在国产算力上运行顶级开源大模型,已经具有商业可行性。
但同时需要承认:预训练阶段仍是英伟达主导,这部分的算力差距不会因为一次推理适配而消失。国产算力的追赶,是一个持续数年的工程,不是一篇技术报告能宣告完成的。
4.2 数据安全层面,推理层的进步有实质价值
对关注数据安全的用户来说,推理在国产算力上运行是有意义的:用户请求的处理发生在境内算力节点,数据的物理位置是可控的。这是一个值得认可的方向性进步。
4.3 下半年是关键节点
昇腾 950 量产、推理吞吐提升、API 价格下调------这些都指向2026年下半年。届时推理适配的真实规模和应用效果才能得到完整验证。
五、结语
DeepSeek V4 与华为昇腾的联手,在推理适配层面走出了有意义的一步。对这一进展,既不应因初期的乐观表述而高估其完成度,也不应因修正而低估其方向价值。
国产 AI 算力的路还长,但方向已经清晰。
参考来源:
- DeepSeek 官方技术报告(2026年4月24日)
- AI Insight《DeepSeek V4 深度解读》
- 华为昇腾 CANN 官方直播(2026年4月24日 19:00)
- 芯东西、CNMO、腾讯科技、新浪财经等媒体报道
本文为作者原创,首发于个人技术博客,转载授权请联系作者。