HuaWei、NVIDIA 数据中心 AI 算力对比

HuaWei Ascend 910B


Ascend 910B 是 HuaWei 于 2023 年推出的高性能 AI 处理器芯片,其对标产品为 Nvidia A100/A800,其算力表现如下:


  1. 峰值算力:Ascend 910B 的半精度(FP16)算力达到 256 TFLOPS(每秒 256 万亿次浮点运算)。
  2. 整数精度算力:Ascend 910B 的整数精度(INT8)算力达到 512 Tera-OPS。
  3. 单精度算力:Ascend 910B 的单精度(FP32)算力达到 128 TFLOPS。
  4. 能效比:Ascend 910B 的每瓦特性能达到 5.2 TFLOPS/W,相较于英伟达 A100 的每瓦特性能 4.7 TFLOPS/W,Ascend 910B 在能效上更优。
  5. 内存带宽:Ascend 910B 的内存带宽为 768 GB/s。
  6. 互连带宽:Ascend 910B 的芯片间互连带宽为 600GB/s,卡间互连带宽为 PCIe 4.0 x16,理论带宽 31.5GB/s。
  7. 功耗:Ascend 910B 的最大功耗为 350W。
  8. AI 算力对比:科大讯飞与华为联合优化后,在他们的场景中 Ascend 910B 已经达到 NVIDIA A100 的性能。

NVIDIA A100

数据精度 A100 80GB PCIe A100 80GB SXM
FP64 9.7 TFLOPS 9.7 TFLOPS
FP64 Tensor Core 19.5 TFLOPS 19.5 TFLOPS
FP32 19.5 TFLOPS 19.5 TFLOPS
Tensor Float 32 (TF32) 156 TFLOPS 312 TFLOPS
BFLOAT16 Tensor Core 312 TFLOPS 624 TFLOPS
FP16 Tensor Core 312 TFLOPS 624 TFLOPS
INT8 Tensor Core 624 TOPS 1248 TOPS
GPU Memory 80GB HBM2e 80GB HBM2e
GPU Memory Bandwidth 1935 GB/s 2039 GB/s
TDP 功耗 300W 400W
插槽类型 PCIe 4.0 SXM

NVIDIA H100

NVIDIA H100 Tensor Core GPU

数据精度 H100 SXM H100 NVL
FP64 34 TFLOPS 30 TFLOPS
FP64 Tensor Core 67 TFLOPS 60 TFLOPS
FP32 67 TFLOPS 60 TFLOPS
TF32 Tensor Core 989 TFLOPS 835 TFLOPS
BFLOAT16 Tensor Core 1979 TFLOPS 1671 TFLOPS
FP16 Tensor Core 1979 TFLOPS 1671 TFLOPS
FP8 Tensor Core 3958 TFLOPS 3341 TFLOPS
INT8 Tensor Core 3958 TOPS 3341 TOPS
GPU Memory 80GB 94GB
GPU Memory Bandwidth 3.35TB/s 3.9TB/s
TDP 功耗 700 W 400 W
插槽类型 SXM PCIe 5.0

基于 PCIe 的 NVIDIA H100 NVL(带有 NVLink 桥接)利用 Transformer Engine、NVLink 和 188GB HBM3 内存,在任何数据中心提供最佳性能和轻松扩展,使大型语言模型成为主流

NVIDIA H200

NVIDIA H200 Tensor Core GPU

数据精度 H200 SXM H200 NVL
FP64 34 TFLOPS 30 TFLOPS
FP64 Tensor Core 67 TFLOPS 60 TFLOPS
FP32 67 TFLOPS 60 TFLOPS
TF32 Tensor Core 989 TFLOPS 835 TFLOPS
BFLOAT16 Tensor Core 1979 TFLOPS 1671 TFLOPS
FP16 Tensor Core 1979 TFLOPS 1671 TFLOPS
FP8 Tensor Core 3958 TFLOPS 3341 TFLOPS
INT8 Tensor Core 3958 TOPS 3341 TOPS
GPU Memory 141GB 141GB
GPU Memory Bandwidth 4.8TB/s 4.8TB/s
TDP 功耗 700 W 600 W
插槽类型 SXM PCIe 5.0

基于 NVIDIA Hoppe 架构NVIDIA H200 是首款提供 141GB(吉字节)HBM3e 内存、内存带宽达 4.8TB/s(太字节每秒)的 GPU

NVIDIA GB200 & GB200 NVL72

数据精度 GB200 NVL72 GB200
Configuration 36 Grace CPU : 72 Blackwell GPUs 1 Grace CPU : 2 Blackwell GPU
FP4 Tensor Core 1440 PFLOPS 40 PFLOPS
FP8/FP6 Tensor Core 720 PFLOPS 20 PFLOPS
INT8 Tensor Core 720 POPS 20 POPS
FP16/BF16 Tensor Core 360 PFLOPS 10 PFLOPS
TF32 Tensor Core 180 PFLOPS 5 PFLOPS
FP32 6480 TFLOPS 180 TFLOPS
FP64 3240 TFLOPS 90 TFLOPS
FP64 Tensor Core 3240 TFLOPS 90 TFLOPS
GPU Memory Up to 13.5 TB HBM3e Up to 384 GB HBM3e
GPU Bandwidth 576 TB/s 16 TB/s
NVLink Bandwidth 130TB/s 3.6TB/s
CPU Core Count 2592 Arm Neoverse V2 cores 72 Arm Neoverse V2 cores
CPU Memory Up to 17 TB LPDDR5X Up to 480GB LPDDR5X
CPU Bandwidth Up to 18.4 TB/s Up to 512 GB/s

GB200 NVL72 架构组成:

  • 将 36 个 Grace Blackwell 超级芯片组合在一起,包含 72 个 Blackwell GPU 和 36 个 Grace CPU,通过第五代 NVLink 技术相互连接
  • 每个 Grace Blackwell 超级芯片包含两个高性能的 NVIDIA Blackwell Tensor Core GPU 和一个 NVIDIA Grace CPU,使用 NVIDIA NVLink-C2C 连接

码字不易,若觉得本文对你有用,欢迎 点赞 👍、分享 🚀 ,相关技术热点时时看🔥🔥🔥​​​...


相关推荐
KG_LLM图谱增强大模型5 分钟前
突破AI助手成本壁垒:知识图谱思维架构让小模型实现大性能
人工智能·架构·大模型·知识图谱·graphrag
喜欢吃豆5 分钟前
[特殊字符] 深入解构 Assistants API:从“黑盒”抽象到“显式”控制的架构演进与终极指南
网络·人工智能·自然语言处理·架构·大模型
深圳南柯电子13 分钟前
深圳南柯电子|医疗电子EMC整改:助医疗器械安全稳定的关键环节
网络·人工智能·安全·互联网·实验室·emc
张较瘦_14 分钟前
[论文阅读] AI + 职业教育 | 从框架到实践:职业院校教师人工智能素养提升的完整方案
论文阅读·人工智能
得贤招聘官1 小时前
AI 重塑招聘格局,传统招聘模式面临转型挑战
人工智能
九章云极AladdinEdu1 小时前
量子机器学习框架设计:基于Cirq的变分量子算法实现
人工智能·量子机器学习·cirq框架·变分量子算法·量子卷积·混合神经网络·参数化量子电路
平和男人杨争争1 小时前
SNN(TTFS)论文阅读——LC-TTFS
论文阅读·人工智能·神经网络·机器学习
我要学脑机1 小时前
prompt[ai开发项目指示]
人工智能·prompt
天天进步20151 小时前
Python全栈项目:结合Puppeteer和AI模型操作浏览器
开发语言·人工智能·python
星座5281 小时前
AI+CMIP6数据分析与可视化、降尺度技术与气候变化的区域影响、极端气候分析
人工智能·ai·气候·水文·cmip6