AI服务器介绍 - 技术栈

rag系列文章目录

现在大模型依旧如火如荼，大模型训练和推理都少不了AI服务器，常见的就是英伟达GPU服务器，比如A100等。国产AI服务器也有很多，比如华为昇腾，这些服务器的算力如何，和英伟达的对比怎么样，作为大模型应用开发人员，需要有个了解，这样对部署的大模型性能有个大致判断。

近年来，国产AI服务器快速发展，主要厂商包括华为、中科曙光（Sugon）、浪潮信息（Inspur）、海光信息、寒武纪、燧原科技等。它们纷纷推出基于本土AI芯片或国产加速器的服务器产品，与国外NVIDIA的DGX、HGX等旗舰AI服务器形成对比。

华为昇腾系列： 华为昇腾芯片包括训练用的昇腾910/910C和推理用的昇腾310等。

中科曙光（Sugon）： 曙光依托海光信息的DCU（GPGPU）和华为昇腾等生态，推出多个AI服务器产品。其"黄河"品牌的OceanAI系列代表服务器有OceanAI 900H训练机（4U）和OceanAI 800H推理机。

浪潮信息（Inspur）： 浪潮作为服务器龙头，在AI服务器领域也颇有布局。2023年浪潮发布了第七代"元脑®"算力平台，涵盖云计算、大数据、AI等16款产品，其中AI训练服务器NF5688G7在顶层架构上采用6U机箱，内置1块NVIDIA HGX-8GPU模块。

海光信息： 海光信息（原曙光控股公司）同时研发服务器CPU和GPU（DCU）。其深算系列DCU采用类GPGPU架构，兼容类CUDA接口，可运行主流AI软件。

寒武纪： 寒武纪专注于AI加速卡和终端处理器。其云端加速卡MLU370系列最新款如MLU370-X8，双芯思元370配置（250W双槽卡）。

燧原科技： 燧原聚焦云端AI加速，其"云燧T"系列为训练加速卡，"云燧i"系列为推理卡。

厂商/型号	制程工艺	显存/内存	内存带宽	FP16 算力	INT8 算力	功耗 (TDP)	主要应用场景
华为昇腾 910	7nm	32GB HBM2e	~1.2 TB/s	256 TFLOPS (FP16)	512 TOPS (INT8)	350W	训练 + 推理，数据中心 AI
华为昇腾 910B/910C	7nm 改进版	64GB HBM2e	~1.6 TB/s	~320 TFLOPS (FP16)	640 TOPS (INT8)	400W	大模型训练，国产超算
寒武纪 MLU370	7nm	64GB HBM2e	~1.2 TB/s	128 TFLOPS (FP16)	512 TOPS (INT8)	350W	推理、部分训练
燧原思元 290	7nm	64GB HBM2e	~1.2 TB/s	150 TFLOPS (FP16)	600 TOPS (INT8)	350W	推理优化，大规模训练
NVIDIA A100 (80GB)	7nm (TSMC)	80GB HBM2e	2.0 TB/s	312 TFLOPS (FP16 Tensor Core)	1248 TOPS (INT8)	400W	大模型训练、科学计算
NVIDIA H100 (80GB)	4nm (TSMC)	80GB HBM3	3.35 TB/s	989 TFLOPS (FP16 Tensor Core)	1979 TOPS (INT8)	700W	超大规模训练，生成式 AI
NVIDIA B200 (Blackwell)	3nm	192GB HBM3e	8 TB/s	~20 PFLOPS (FP16, 启用FP8混合精度)	>4000 TOPS (INT8)	~1000W	下一代大模型（GPT-5/Omni）

总结

算力差距：
o 华为昇腾 910/910B 单卡 FP16 大约相当于 A100 的水平，略弱于 H100；
o H100 在 FP16/INT8 上几乎是昇腾 910 的 3-4 倍性能；
o 新一代 Blackwell（B200）则是跨代碾压。
内存带宽：
o 昇腾单卡带宽 ~1.2-1.6 TB/s，约等于 A100，但比 H100 (3.35 TB/s) 差一代。
生态和优化：
o NVIDIA 有 CUDA/cuDNN/PyTorch 深度优化，生态领先；
o 昇腾主要依赖 CANN + MindSpore，生态逐步完善，但在大模型训练上仍偏小众。

在讨论 GPU 算力时，为什么大家常常关注 FP16 (半精度浮点) 和 INT8 (8 位整型)，而不是传统的 FP32 (单精度) 或 FP64 (双精度) 呢？

• FP32 (单精度浮点)

o 过去深度学习训练主要依赖 FP32（例如早期的 TensorFlow、PyTorch 默认就是 FP32）。

o 但随着模型规模增大，FP32 太耗显存、吞吐低。

• FP16 / BF16 (半精度浮点)

o 逐渐成为主流的训练和推理精度。

o 现代 GPU（NVIDIA Volta 开始）都有专门的 Tensor Core，对 FP16 计算进行加速。

o FP16 的动态范围比 FP32 小，但结合混合精度训练 (Mixed Precision)，可以用 FP16 存储和计算，大大提升速度和显存利用率，同时保留 FP32 的稳定性。

o 所以，FP16 算力基本上就是训练/推理大模型的「有效算力」。

• INT8 (8 位整型)

o 主要用于推理阶段 (inference)。

o 量化（Quantization）技术会把模型参数/激活从 FP16 或 FP32 压缩到 INT8，这样：

 模型体积更小（显存需求减少一半以上）；

 计算单元更高效（INT8 单元密度更大、带宽压力更低）。

o 对应的算力指标叫 TOPS (Tera Operations Per Second)，而不是 FLOPS。

o INT8 对大多数任务（尤其是推理）足够准确，所以它被视为推理效率的关键指标。

• FP16 算力 ≈ 衡量 GPU 在训练大模型上的核心性能。

• INT8 算力 ≈ 衡量 GPU/AI 芯片在推理阶段的效率和能效。

• 这两个指标合起来，基本覆盖了 AI 芯片在「训练 + 推理」两大主战场的性能需求。

作为一个大模型应用工程师，了解国产AI服务器的指标，有利于掌握AI服务器的选型，也有利于在部署模型时，清楚模型运行的性能，知道优化模型性能的方向。