DeepSeek V4 × 华为昇腾：国产AI算力推理适配的实质性进展

重要更正（2026年4月25日）： 本文初稿曾使用"全流程迁移""里程碑式跨越"等表述，后经核实，需明确以下事实：V4 及 V4-Pro 的预训练仍在英伟达 H800/H100 上完成；V4-Flash 后训练由昇腾完成；当前对外开放的 API 推理运行在昇腾上，但部分优化依赖 CUDA 生态下的算子实现，并非完整的"去 CUDA 化"。本文已据此全面修正，对初稿的不准确表述深表歉意。

引言：推理层的适配，意义在哪

2026年4月24日，深度求索（DeepSeek）正式发布 DeepSeek-V4 系列模型预览版，并同步开源。同日，华为昇腾 CANN 官方 B 站账号完成独家直播解读------DeepSeek 在官方技术报告中列出了华为昇腾适配方案，这是全球头部开源大模型首次在国产 AI 芯片上提供推理服务。

需要说清楚的是：预训练仍是英伟达芯片主导，昇腾适配主要体现在推理层。但这个层面的适配，对国产 AI 算力的商业化落地而言，意义同样值得认真拆解。

本文从技术架构、算力适配现状、生态影响三个维度，梳理这次发布的核心信息。

一、DeepSeek V4 技术架构：三个创新改变游戏规则

1.1 MoE 双版本：旗舰与轻量并行

DeepSeek V4 分为两个版本，均采用 MoE（Mixture of Experts，混合专家）架构：

版本	总参数量	激活参数	上下文窗口	精度
V4-Pro（旗舰版）	1.6 万亿（1.6T）	490亿	100万 Token	FP4 + FP8 混合精度
V4-Flash（经济版）	2840亿（284B）	130亿	100万 Token	FP4 + FP8 混合精度

两个版本的预训练数据均超过 32T tokens，训练规模在开源领域前所未有。V4-Pro 每次推理仅激活约 3% 的参数（MegaMoE 架构），实现极致的推理效率。

注：V4 及 V4-Pro 的预训练在英伟达 H800/H100 集群上完成（技术报告第16页明确）。

1.2 创新一：混合注意力架构（CSA + HCA）

这是 V4 最核心的技术突破。DeepSeek 团队引入了两层注意力压缩机制：

CSA（Compressed Sequence Attention，压缩序列注意力）：对局部上下文进行压缩，降低冗余。
HCA（Hyper-Compressed Attention，重度压缩注意力）：对全局上下文做深度压缩，保留核心信息。

实测效果：在 100万 Token 超长上下文下，单 Token 推理 FLOPs 降至 V3.2 的 27%，KV Cache 显存占用降至 10%。 这意味着，在不牺牲模型能力的前提下，推理成本大幅降低。

1.3 创新二：流形约束超连接（mHC）

在深层 Transformer 中引入流形约束（Manifold Hyper-Connection） ，目的是解决超大规模 MoE 路由中一个关键问题：深层梯度弥散导致的专家激活分布坍缩。

简单来说：当模型变得极深时，深层的"专家"会因为梯度信号减弱而逐渐趋同，失去多样性。mHC 通过约束信号在流形空间的传播路径，让深层网络依然能保持稳定的信号流动，保证专家路由的有效性。

1.4 创新三：Muon 优化器

V4 弃用了传统的 AdamW ，转而采用团队自研的 Muon 优化器。

Muon 基于矩阵正交化机制做动量更新，核心思路是：在每一步更新时，让梯度矩阵尽量"正交"------这样可以避免传统 AdamW 中动量累积导致的参数空间偏移问题。

在超过 32T tokens 的超大规模训练中，团队验证了 Muon 收敛更快、最终损失更低的优势。这是优化器层面一次值得关注的范式转变。

1.5 V4-Pro 核心性能 Benchmark

评测维度	指标	说明
代码能力	Codeforces 3206	开源模型全球最高分
代码生成	LiveCodeBench 93.5%	-
代码补全	HumanEval 76.8%	-
工程修复	SWE Verified 80.6%	官方自测
研究生级科学推理	GPQA Diamond 90.1	-
中文综合	C-Eval 93.1	-
多学科综合	MMLU 90.1	-
长上下文召回	MRCR 1M 83.5	百万 Token 级
长文档问答	CorpusQA 1M 62.0	百万 Token 级

二、华为昇腾适配：推理层面的实质性进展

2.1 准确的说法是什么

先说清楚，避免混淆：

预训练：V4 及 V4-Pro 在英伟达 H800/H100 上完成（技术报告明确）
后训练：V4-Flash 的后训练在华为昇腾上完成
推理：当前对外开放的 API 推理在昇腾上运行
部分 CUDA 依赖：技术报告中提到的部分核心优化算子，属于 CUDA 独有，昇腾侧尚无完全等效实现

所以准确的定位是：DeepSeek V4 在华为昇腾上完成了推理层面的适配部署，V4-Flash 后训练由昇腾完成；但预训练仍是英伟达主导，推理层部分优化仍依赖 CUDA 生态。这是一个有意义的进展，但说成"完整迁移"或"全流程去 CUDA 化"是不准确的。

2.2 为什么推理适配仍然重要

即便如此，推理层面的适配意义不应被低估：

第一，推理是模型与用户接触的最后一环，也是数据处理发生的阶段。推理在昇腾上运行，意味着用户请求的数据处理发生在国产算力节点上------这个层面的数据安全意义是真实的。

第二，V4-Flash 后训练在昇腾上完成，证明昇腾具备承接主流大模型后训练任务的能力。这是从"能推理"到"能训练"的关键一步。

第三，实测数据显示，昇腾 950P 单卡推理性能达到英伟达 H20 的 2.87 倍（多卡场景下差距会缩小，但单卡数字仍有参考价值）。这说明昇腾在推理效率上已具备商业竞争能力。

2.3 硬件路线：昇腾 950 系列

DeepSeek V4 推理采用的硬件路线：

昇腾 950PR：负责 Prefill（预填充）阶段的并行推理计算
昇腾 950DT：负责 Decode（解码）阶段

注：当前 V4-Pro 推理吞吐量受限，主要原因是昇腾 950 尚未量产（预计2026年下半年批量上市）。届时推理吞吐将大幅提升，API 价格也会随算力供给增加而下调。

2.4 挑战还在：CUDA 生态的深度依赖

需要清醒看到的是，昇腾与英伟达的差距不仅在芯片硬件本身：

算子完整性：CUDA 生态有数千个底层算子（cuBLAS、cuDNN 等），昇腾 CANN 的等效覆盖仍在快速补齐中，技术报告提到的部分优化算子属于 CUDA 独有。
多卡互联带宽：昇腾 HCCS 通信带宽目前仍落后于英伟达 NVLink，多卡推理效率差距比单卡更明显。
工具链成熟度：CUDA 生态经过十几年打磨，工具链的完备性和调试体验仍有明显优势。

三、国产 AI 芯片全生态响应：8家适配的意义

3.1 推理适配快速扩展

DeepSeek V4 发布后，寒武纪、海光信息、摩尔线程、沐曦股份、昆仑芯、平头哥（真武）、天数智芯等 7 家国产 AI 芯片厂商在不到 24 小时内完成了推理层面的适配支持。

芯片厂商	适配状态
华为昇腾	深度适配，官方直播解读
寒武纪	基于 vLLM 完成适配，代码已开源
海光信息	完成推理适配
摩尔线程	完成推理适配
沐曦股份	完成推理适配
昆仑芯	完成推理适配
平头哥（真武）	完成推理适配
天数智芯	完成推理适配

3.2 智源 FlagOS 的角色

智源研究院的 FlagOS（开源模型操作系统） 完成了 DeepSeek V4-Flash 在多款国产 AI 芯片上的推理适配支持。这意味着：国产 AI 算力的推理生态正在形成统一的标准接口，降低了用户切换算力平台的迁移成本。

3.3 云服务商跟进

华为云、腾讯云、天翼云等云服务商同步上线了 DeepSeek V4 的昇腾推理服务，用户可以直接通过 API 调用，无需自建算力基础设施。

四、战略意义：三点清醒的判断

4.1 推理国产化是真实进展，但预训练差距仍在

DeepSeek V4 在昇腾上跑推理、且 V4-Flash 后训练由昇腾完成------这验证了一条路径：在国产算力上运行顶级开源大模型，已经具有商业可行性。

但同时需要承认：预训练阶段仍是英伟达主导，这部分的算力差距不会因为一次推理适配而消失。国产算力的追赶，是一个持续数年的工程，不是一篇技术报告能宣告完成的。

4.2 数据安全层面，推理层的进步有实质价值

对关注数据安全的用户来说，推理在国产算力上运行是有意义的：用户请求的处理发生在境内算力节点，数据的物理位置是可控的。这是一个值得认可的方向性进步。

4.3 下半年是关键节点

昇腾 950 量产、推理吞吐提升、API 价格下调------这些都指向2026年下半年。届时推理适配的真实规模和应用效果才能得到完整验证。

五、结语

DeepSeek V4 与华为昇腾的联手，在推理适配层面走出了有意义的一步。对这一进展，既不应因初期的乐观表述而高估其完成度，也不应因修正而低估其方向价值。

国产 AI 算力的路还长，但方向已经清晰。

参考来源：

DeepSeek 官方技术报告（2026年4月24日）
AI Insight《DeepSeek V4 深度解读》
华为昇腾 CANN 官方直播（2026年4月24日 19:00）
芯东西、CNMO、腾讯科技、新浪财经等媒体报道

本文为作者原创，首发于个人技术博客，转载授权请联系作者。