华为昇腾910A NPU 的模型加密方案 ASCEND-CC

华为昇腾910A NPU 的机密计算方案 ASCEND-CC 论文解读

参考 https://blog.csdn.net/qq_41691212/article/details/142111046

据了解还在论文阶段。

文章由ai生成

一句话概括

让 AI 模型和数据在云端"黑箱"里安全运行------云厂商看不到、改不了,而且几乎不影响性能。


为什么要做这件事?(痛点)

现在大模型(如 ChatGPT)都跑在云端,但这里面有三方互相不信任:

  • 模型厂商:怕自己的模型(知识产权)被云厂商偷走
  • 数据用户:怕自己的隐私数据(病历、商业机密)被泄露
  • 云厂商:提供机器,但其他两方不信任它

以前的安全方案主要靠 CPU 的"保险箱"(TEE),但问题是:

  1. AI 计算主要在 NPU/GPU,CPU 的保险箱管不到加速器
  2. Nvidia 的方案需要 CPU 也可信,链条太长,容易出漏洞
  3. 以前的学术方案要么只支持老模型,要么需要改硬件、改 PyTorch,不实用

ASCEND-CC 怎么解决?(核心思路)

简单说就是:只信 NPU 芯片本身,主机(CPU、操作系统、驱动)一律视为不可信。

具体做法像"快递加密 + 密室执行":

步骤 通俗解释
加密传输 模型和数据像"加密快递"一样发给 NPU,主机全程只能看到乱码
切断通道 数据进 NPU 解密前,先把主机的 DMA 访问权限拔掉(像关上门反锁)
密室计算 NPU 在内部解密、执行 AI 推理,此时主机完全看不到内存
加密输出 算完结果先加密,再重新开门(恢复 DMA)传回主机
验明正身 NPU 启动时验证固件是否官方正版,防止被刷恶意固件
任务防篡改 检查 AI 模型的执行步骤有没有被恶意修改(比如防止偷插"复制模型参数"的指令)

关键亮点

  1. 不依赖 CPU 安全机制:只信任 NPU 芯片,主机就算被黑客完全控制也不怕
  2. 对 PyTorch 零改动:开发者不用改代码,直接用现有 AI 框架
  3. 专注大模型:针对 Llama2/3 这类现代 LLM 优化,不像老方案只支持小模型
  4. 单租户设计:大模型本身就吃满显存,没必要搞多租户共享,反而更安全

效果怎么样?

在华为昇腾 910A 上实测多个主流大模型(Llama-2/3、CodeLlama 等):

  • 性能开销极低 :推理延迟只增加 0.028% ~ 0.91%,几乎无感
  • 一次性初始化:首次设置有少量开销,之后正常运行

总结

ASCEND-CC 相当于给昇腾 NPU 打造了一个**"独立保险柜"**------模型和数据加密进去,在里面明文计算,但主机全程被隔离在外,算完加密出来。既防云厂商偷窥,又防黑客攻击,还不用改代码。

和H100 安全飞地 对比


不能简单说"差一些",而是设计理念不同、适用场景不同 。客观来看,两者是互有优劣


1. 信任模型:ASCEND-CC 信任依赖更少

维度 Nvidia-CC (H100) ASCEND-CC (昇腾平台)
信任主机吗? 常见配置下需信任 CPU 端的机密虚拟机(C-VM)及部分驱动;但也支持仅信任 GPU 的模式(纯 GPU 证明) 完全不信任主机,只信 NPU 芯片本身
TCB(可信代码量) 较大:NPU + CPU TEE + 驱动 + 安全处理器(协同模式) 较小:仅 NPU 内部
被攻击面 CPU 侧通道攻击可能影响协同模式下的密钥交互;纯 GPU 模式可避免 主机被完全攻破也不影响 NPU 内数据

通俗说 :Nvidia-CC 可根据场景选择"CPU 与 GPU 联手"或"GPU 独立守秘",灵活性高,但协同模式下若 CPU 可信域被侧信道攻击,可能增加风险。ASCEND-CC 设计上完全斩断对主机的依赖,像"NPU 自己单干",主机被黑客全控也碰不到数据。因此,ASCEND-CC 的信任模型更纯粹,受攻击面更小。


2. 多租户 vs 大模型:场景选择不同

维度 Nvidia-CC (H100) ASCEND-CC (昇腾平台)
空间共享/多租户 ✅ 支持(MIG 切分) 论文场景为单租户,未涉及空间共享
资源利用率 云厂商爱用(一卡多租) 大模型本身吃满显存,切分意义不大

通俗说 :Nvidia-CC 更适合"云厂商把一张 H100 切成多块租给不同客户";ASCEND-CC 论文认为"当前 Llama-70B 等大模型一张卡都装不下,切分无必要,独占更安全"。这不是技术差距,是产品定位差异。


3. 生态与成熟度:H100 确实领先

维度 Nvidia-CC (H100) ASCEND-CC (昇腾平台)
软件生态 CUDA + PyTorch/TensorFlow,生态无敌 CANN + 适配层,生态仍在追赶
硬件安全 原生集成安全处理器,硬件级支持 修改固件实现,基于现有芯片(论文方案)
商用状态 已商用(AWS、Azure、GCP 已上线) 目前为学术论文/预印本阶段
编程接口 开发者几乎无感 需要 torch_npu 适配层

这一点上 H100 确实更强。 毕竟 Nvidia 是行业标准,CUDA 生态护城河深,且 H100 的机密计算是硬件原生设计,ASCEND-CC 是论文中基于现有芯片修改固件的方案。学术方案与成熟商用产品有差距,是技术演进中的正常过程。


4. 性能开销:两者都很低

据论文实验,ASCEND-CC 在特定模型和精度下的推理开销仅为 0.028%~0.91% ;Nvidia 官方在特定条件下宣称"接近零开销"。这方面两者基本打平。


总结

不是"差一些",而是"各有取舍":

  • 若看重"绝对安全"与"自主可控":ASCEND-CC 的信任模型更干净(不依赖主机 CPU),更适合防云厂商偷窥模型、国产替代等场景。
  • 若看重"生态成熟度、多租户、商用落地":H100 的 Nvidia-CC 目前更成熟,云厂商容易接入,且提供了灵活的空间共享能力。

打个比方

  • H100 像"精装公寓"------拎包入住(CUDA 生态),还能合租(MIG),物业(CPU)可协作,但也能独立加固。
  • 昇腾 ASCEND-CC 像"自建安全屋"------自己搭(生态仍在建设),独门独院(当前聚焦单租户),且完全不依赖物业(主机)。

对于大模型推理这个特定场景,ASCEND-CC 的设计逻辑是成立的;但作为学术方案,它距离 H100 的商业产品成熟度还有显著距离。

分维度看,结论不同。


1. 技术理念层面:很行,甚至有点超前

"不依赖 CPU TEE,只信任 NPU 本身"这个思路,比 Nvidia-CC 更干净。现在 CPU TEE(Intel TDX、AMD SEV)漏洞频出,侧信道攻击不断,把安全锚点完全放到 NPU 内部是更现代的设计。

评价:方向是对的,理念领先。


2. 论文原型层面:行,但有限制

文章说在昇腾 910A 上修改固件实现了整套方案,跑通了 Llama2/3、CodeLlama 等主流大模型,性能开销确实极低(<<1%)。

但注意几个细节:

  • 修改固件:这不是用户能随便做的,需要华为官方支持或开放固件权限
  • 单租户:大模型本身吃满显存,所以不共享是合理的,但云厂商可能不喜欢(不能一卡多租)
  • 调试功能全关:对运维不友好,出问题难排查

评价:学术验证通过了,但工程化还有不少坑。


3. 商用落地层面:目前不太行

对比 Nvidia-CC:

维度 Nvidia-CC (H100) ASCEND-CC
状态 已商用,AWS/Azure/GCP 上线 2024 Arxiv 论文,无商用消息
生态 CUDA 无缝衔接 依赖 CANN + torch_npu 适配
硬件支持 原生安全处理器 基于现有芯片改固件
云厂商接受度 未知

评价:离真正给云厂商拿去卖服务,还有产品化、标准化、合规认证的距离。


4. 国产替代层面:行,且有意义

如果你问的是"国产 NPU 能不能做机密计算",那 ASCEND-CC 证明了昇腾可以做到,而且思路和性能都不差。这对国内做 AI 云服务的厂商(比如华为云、电信运营商)有参考价值------至少技术路径是通的。

评价:对国产 AI 芯片安全生态有实际价值。


5. 开发者用起来行不行?暂时不太行

普通开发者现在用不了:

  • 没有开源代码
  • 没有公开 API
  • 没有云服务实例可以勾选"启用 ASCEND-CC"
  • 需要等华为把这套方案产品化

评价:目前只是"论文可行",不是"产品可用"。


一句话总结

学术上站得住,工程上走得通,但产品化还没影。

如果你是研究人员或国产芯片从业者 :这个方案很行,值得关注。

如果你是想上云的开发者或企业:暂时还不行,等华为官方产品化。目前选 H100 的 Nvidia-CC 更现实。

目前没开源。

我搜了一圈,没找到 ASCEND-CC 这篇论文对应的公开代码仓库。论文里说的是"通过修改固件在昇腾 910A 上实现",这本身就暗示了几件事:

  1. 学术原型阶段:论文是 2024 年挂在 Arxiv 上的,属于研究性质,不是产品
  2. 需要固件级权限:修改 NPU 固件不是普通开发者能随便做的,需要华为官方支持
  3. 没有公开 repo:论文里没提 GitHub/Gitee 链接,网上也搜不到对应的开源项目

现在能拿到什么?

昇腾生态里其他东西是开源的,比如:

  • CANN 部分组件(Gitee 上能看到 HCCL 通信库等)
  • Triton-Ascend(GitHub 开源,昇腾版的 Triton 推理服务器)
  • MindSpeedMindSpore 等框架

ASCEND-CC 这个机密计算方案本身 ,目前就是论文 + 概念验证,没有对外放代码。


结论

现在用不了,也看不到代码。

如果你是想研究这个方向,只能读论文;如果你是想在昇腾上落地机密计算,只能等华为官方把这套方案产品化(比如集成到 CANN 或昇腾云服务里),或者自己基于论文思路做类似实现。

相关推荐
Reisentyan1 小时前
[Pro]GoLang Learn Data Day 5
开发语言·后端·golang
txg6661 小时前
AI领域简报(2026年5月22日—5月28日)
人工智能
zh路西法1 小时前
【OpenCV无人机光流速度估计】基于Farneback稠密光流方法的无人机速度估计
人工智能·python·opencv·计算机视觉·无人机
聆风吟º1 小时前
【Python编程日志】Python基础语法:常量 | 表达式 | 变量
开发语言·python·变量·常量·表达式
jiayong231 小时前
ZeroClaw 项目总览与架构分析
人工智能·架构·智能体·zeroclaw
QiLinkOS1 小时前
发明人与专利价值共生逻辑
c语言·数据结构·c++·人工智能·单片机·嵌入式硬件·算法
阳明山水1 小时前
销量预测模型评估进阶:从 MAPE 到库存周转率与缺货损失金额
人工智能·机器学习·微信·微信公众平台·微信开放平台
weixin_468466851 小时前
Airtable 零基础快速上手与实战指南
数据库·人工智能·python·深度学习·ai·大模型