昇腾910 与 英伟达5090 对比

昇腾 910 不是 GPU,也不是开发板,而是华为自研的 NPU(神经网络处理器)加速卡 ;英伟达 RTX 5090 是消费级 / 工作站级通用 GPU。二者定位、架构、场景完全不同,下面做详细对比。


一、先澄清:昇腾 910 是什么形态?

  • 不是 GPU :GPU 是通用图形 / 并行计算处理器(CUDA 核心);昇腾 910 是达芬奇架构 NPU,专为 AI 矩阵计算优化。
  • 不是开发板 :它是标准 PCIe 加速卡(类似服务器 GPU 卡),插在服务器 PCIe 槽使用,无板载 CPU / 内存 / 外设。
  • 形态:全长 PCIe 卡、被动 / 主动散热、服务器级供电,用于数据中心 AI 训练 / 推理。

二、核心参数横向对比(昇腾 910B vs RTX 5090)

表格

对比项 昇腾 910B(NPU) 英伟达 RTX 5090(GPU)
核心定位 云端 AI 训练 / 推理(数据中心) 消费级 / 工作站:游戏 + 图形 + 通用计算 + 轻量 AI
架构 达芬奇架构(AI 专用 NPU) Blackwell 2.0(通用 GPU)
制程 7nm(中芯 N+1) 5nm(台积电)
FP16 算力 320 TFLOPS ~105 TFLOPS(理论)
INT8 算力 640 TOPS 约 420 TOPS(Tensor Core)
显存 32GB HBM2 32GB GDDR7
显存带宽 1.2TB/s 1.79TB/s
功耗 310W 575--600W
互联 PCIe 4.0、HCCS、RoCE v2 PCIe 5.0 x16
视频输出 无(服务器卡) HDMI 2.1b、DP 2.1
生态 CANN、MindSpore、AscendCL CUDA、PyTorch/TensorFlow、游戏生态
价格 约 5--8 万 / 卡(数据中心) 约 1.9--2.5 万 / 卡(消费级)

三、关键差异与选型要点

1. 架构与计算效率
  • 昇腾 910AI 专用 ,3D Cube 矩阵引擎,单周期 4096 次乘加,AI 训练 / 推理效率极高
  • RTX 5090通用并行,CUDA+Tensor Core,兼顾图形渲染、游戏、科学计算、轻量 AI。
2. 算力与场景
  • 训练能力 :910 的FP16 算力是 5090 的 3 倍 + ,适合大模型训练、千亿参数、多卡集群
  • 推理 / 游戏 / 图形 :5090 在消费级场景、游戏、4K/8K 渲染、轻量 AI 推理上全面领先。
3. 功耗与部署
  • 910:310W ,服务器级散热,适合高密度数据中心、长期稳定运行
  • 5090:575--600W ,需高端电源 / 散热,适合个人 / 工作站、短期高负载
4. 生态与兼容性
  • 910:国产自主 ,CANN/MindSpore,适合政务、金融、军工、国产化项目
  • 5090:CUDA 生态成熟 ,几乎所有 AI 框架 / 游戏 / 软件原生支持,通用性极强

四、一句话选型建议

  • 大模型训练、数据中心 AI 集群、国产化替代 → 选昇腾 910
  • 游戏、3D 渲染、个人 AI 开发、轻量推理 → 选RTX 5090
相关推荐
兵慌码乱3 小时前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理
ZhengEnCi4 小时前
09c-斯坦福CS336作业二:系统与分布式训练
人工智能
阿里云大数据AI技术4 小时前
用 SQL 解锁多模态数据分析:Hologres 让图片、语音、视频变成结构化洞察
人工智能
阿里云大数据AI技术4 小时前
EMR Serverless StarRocks 湖仓多模态检索:One SQL on One Data,实现全文 + 标量 + 向量三路混合检索
人工智能
金銀銅鐵4 小时前
[Python] 体验用欧几里得算法计算最大公约数的过程
python·数学
冬奇Lab6 小时前
Skill 系列(02):Skill 安全风险——三类攻击面的实战测试
人工智能·安全·开源
冬奇Lab6 小时前
每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队
人工智能·开源·claude
米小虾6 小时前
智谱港股盘中市值突破万亿港元!GLM-5.2 开源引爆国产 AI 价值重估
人工智能·chatglm (智谱)
阿里云大数据AI技术6 小时前
义乌小商品城基于MaxFrame AI Function的亿级AI 数据产线提速之路
人工智能