AMD 跑 DeepSeek 性能超 H200!128 并发 Token 间延迟不超 50ms,吞吐量达 H200 五倍

DeepSeek-R1 掀起新一轮购卡潮的同时,AMD 的含金量也上升了。

在 AMD 的 MI300X 上跑 FP8 满血 R1,性能全面超越了英伟达 H200------

相同延迟下吞吐量最高可达 H200 的 5 倍,相同并发下则比 H200 高出 75%。

这个结果,一方面归功于 SGLang 框架,另一方面则是得益于 AMD 新优化的 AI 内核库 AITER。

AITER 可以用来加速 GPU 训练和推理,AMD 副总裁 Emad Barsoum 直接喊出了 AITER is all you need

还有网友表示,英伟达 CUDA 的护城河要终结了

之前著名黑客 George Hotz 也曾表示自己非常看好 AMD,认为只要有好的软件 MI300X 表现就能超越 H100。

结果 MI300X 超额实现了 George 的期待,直接把 H200 给超了。

吞吐翻倍、延迟更低

AMD 的测试结果显示,MI300X 在延迟相似的情况下实现了 H200 五倍的吞吐量,超过了每秒 7k Tokens。

如果固定并发数量,MI300X 相同并发下的吞吐量比 H200 高 75%,延迟降低 60%。

如果需要 Token 间延迟不超过 50 毫秒,一个 H200 节点可以处理 16 个并发请求,MI300X 节点则可以处理 128 个

除了 AMD 自己,也有第三方对 H100 和 MI300X 进行了对比测试。

结果除了首个 Token 延迟出现了一些不稳定之外,其余的速度和延迟指标都是 MI300X 全面超过了 H100。

看到 MI300X 的表现,有人拿出了老黄经典的那句 "买的越多省的越多",表示现在这句话该让 AMD 来说了。

那么,在这些成绩的背后,AMD 都用了那些技术呢?

SGLang 框架 + AMD 张量引擎

软件框架层面,R1 在 MI300X 上取得优异表现的关键,是 SGLang 框架

SGLang 是一个开源大模型推理框架,是开源社区协作的一项成果,发起者是 LMSYS,也就是搞大模型竞技场的那个组织。

SGLang 在 GitHub 上拥有超过 1.2 万星标,并且不论 AMD 还是隔壁英伟达,以及马斯克的 xAI,都非常青睐这个框架,此外 AMD 还是 SGLang 的主要贡献者之一。

在稍早一些的测试当中,使用 SGLang 在 MI300X 上运行 DeepSeek-R1,仅过了两周就相比于 day 0 时性能提升到了 4 倍,吞吐量达到了每秒 5921 Tokens。

前面提到的第三方,也在 MI300X 上分别用 SGLang 和 vLLM 进行了测试,结果 SGLang 完胜。

实际上,SGLang 一直是 DeepSeek 模型的一个最佳拍档,不仅对于 AMD,在英伟达 H200 上,也能带来类似的性能提升。

而在硬件层面,MI300X 高效运行 R1 的关键,是 AMD 为 ROCm(可以理解为 AMD 版 CUDA)打造的 AI 张量引擎 AITER

AITER 是一个包含大量高性能 AI 算子的集中式存储库,也是一个统一平台,可以轻松找到优化的算子并将其集成到现有框架中。

AITER 的基础架构建立在多种底层技术之上,包括 Triton、CK(计算内核)、ASM(汇编)和 HIP(异构可移植性接口)。

它支持各种计算任务,例如推理工作负载、训练内核、GEMM(通用矩阵乘法)运算和通信内核。

它可以让 GEMM 的性能提升 2 倍、MoE 性能提升 3 倍、MLA 解码性能提升 17 倍、MHA 预填充性能提升 14 倍。

开启 AITER 后,MI300X 上 DeepSeek-V3 的吞吐量是开启前的两倍多。

除了框架和硬件的适配,AMD 还进行了超参数调整

AMD 发现,当运行具有大量线程(例如 128 个或更多)的程序时, 由于预填充吞吐量缓慢,带来了系统的性能瓶颈。

于是 AMD 提高了 chunked_prefill_size 参数的大小,用更高的内存占用换取了预填充过程的加速。

不过考虑到内存容量大本就是 MI300X 的一大特色,这种选择也不失为一种更优的结果。

那么,你觉得这次 AMD 是不是又 Yes 了呢?

参考链接:

1\][rocm.blogs.amd.com/artificial-...](https://link.juejin.cn?target=https%3A%2F%2Frocm.blogs.amd.com%2Fartificial-intelligence%2FDeepSeekR1-Part2%2FREADME.html "https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1-Part2/README.html") \[2\][x.com/tngtech/sta...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Ftngtech%2Fstatus%2F1901779226602115076 "https://x.com/tngtech/status/1901779226602115076") \[3\][geohot.github.io//blog/jekyl...](https://link.juejin.cn?target=https%3A%2F%2Fgeohot.github.io%2F%2Fblog%2Fjekyll%2Fupdate%2F2025%2F03%2F08%2FAMD-YOLO.html "https://geohot.github.io//blog/jekyll/update/2025/03/08/AMD-YOLO.html") --- **完** ---

相关推荐
无心水29 分钟前
【分布式利器:腾讯TSF】10、TSF故障排查与架构评审实战:Java架构师从救火到防火的生产哲学
java·人工智能·分布式·架构·限流·分布式利器·腾讯tsf
小鸡吃米…7 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫8 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)8 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan8 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维8 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS8 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd8 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟9 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然9 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析