DeepSeek-R1 掀起新一轮购卡潮的同时,AMD 的含金量也上升了。
在 AMD 的 MI300X 上跑 FP8 满血 R1,性能全面超越了英伟达 H200------
相同延迟下吞吐量最高可达 H200 的 5 倍,相同并发下则比 H200 高出 75%。
这个结果,一方面归功于 SGLang 框架,另一方面则是得益于 AMD 新优化的 AI 内核库 AITER。
AITER 可以用来加速 GPU 训练和推理,AMD 副总裁 Emad Barsoum 直接喊出了 AITER is all you need。
还有网友表示,英伟达 CUDA 的护城河要终结了。
之前著名黑客 George Hotz 也曾表示自己非常看好 AMD,认为只要有好的软件 MI300X 表现就能超越 H100。
结果 MI300X 超额实现了 George 的期待,直接把 H200 给超了。
吞吐翻倍、延迟更低
AMD 的测试结果显示,MI300X 在延迟相似的情况下实现了 H200 五倍的吞吐量,超过了每秒 7k Tokens。
如果固定并发数量,MI300X 相同并发下的吞吐量比 H200 高 75%,延迟降低 60%。
如果需要 Token 间延迟不超过 50 毫秒,一个 H200 节点可以处理 16 个并发请求,MI300X 节点则可以处理 128 个。
除了 AMD 自己,也有第三方对 H100 和 MI300X 进行了对比测试。
结果除了首个 Token 延迟出现了一些不稳定之外,其余的速度和延迟指标都是 MI300X 全面超过了 H100。
看到 MI300X 的表现,有人拿出了老黄经典的那句 "买的越多省的越多",表示现在这句话该让 AMD 来说了。
那么,在这些成绩的背后,AMD 都用了那些技术呢?
SGLang 框架 + AMD 张量引擎
软件框架层面,R1 在 MI300X 上取得优异表现的关键,是 SGLang 框架。
SGLang 是一个开源大模型推理框架,是开源社区协作的一项成果,发起者是 LMSYS,也就是搞大模型竞技场的那个组织。
SGLang 在 GitHub 上拥有超过 1.2 万星标,并且不论 AMD 还是隔壁英伟达,以及马斯克的 xAI,都非常青睐这个框架,此外 AMD 还是 SGLang 的主要贡献者之一。
在稍早一些的测试当中,使用 SGLang 在 MI300X 上运行 DeepSeek-R1,仅过了两周就相比于 day 0 时性能提升到了 4 倍,吞吐量达到了每秒 5921 Tokens。
前面提到的第三方,也在 MI300X 上分别用 SGLang 和 vLLM 进行了测试,结果 SGLang 完胜。
实际上,SGLang 一直是 DeepSeek 模型的一个最佳拍档,不仅对于 AMD,在英伟达 H200 上,也能带来类似的性能提升。
而在硬件层面,MI300X 高效运行 R1 的关键,是 AMD 为 ROCm(可以理解为 AMD 版 CUDA)打造的 AI 张量引擎 AITER。
AITER 是一个包含大量高性能 AI 算子的集中式存储库,也是一个统一平台,可以轻松找到优化的算子并将其集成到现有框架中。
AITER 的基础架构建立在多种底层技术之上,包括 Triton、CK(计算内核)、ASM(汇编)和 HIP(异构可移植性接口)。
它支持各种计算任务,例如推理工作负载、训练内核、GEMM(通用矩阵乘法)运算和通信内核。
它可以让 GEMM 的性能提升 2 倍、MoE 性能提升 3 倍、MLA 解码性能提升 17 倍、MHA 预填充性能提升 14 倍。
开启 AITER 后,MI300X 上 DeepSeek-V3 的吞吐量是开启前的两倍多。
除了框架和硬件的适配,AMD 还进行了超参数调整。
AMD 发现,当运行具有大量线程(例如 128 个或更多)的程序时, 由于预填充吞吐量缓慢,带来了系统的性能瓶颈。
于是 AMD 提高了 chunked_prefill_size 参数的大小,用更高的内存占用换取了预填充过程的加速。
不过考虑到内存容量大本就是 MI300X 的一大特色,这种选择也不失为一种更优的结果。
那么,你觉得这次 AMD 是不是又 Yes 了呢?
参考链接:
1\][rocm.blogs.amd.com/artificial-...](https://link.juejin.cn?target=https%3A%2F%2Frocm.blogs.amd.com%2Fartificial-intelligence%2FDeepSeekR1-Part2%2FREADME.html "https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1-Part2/README.html") \[2\][x.com/tngtech/sta...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Ftngtech%2Fstatus%2F1901779226602115076 "https://x.com/tngtech/status/1901779226602115076") \[3\][geohot.github.io//blog/jekyl...](https://link.juejin.cn?target=https%3A%2F%2Fgeohot.github.io%2F%2Fblog%2Fjekyll%2Fupdate%2F2025%2F03%2F08%2FAMD-YOLO.html "https://geohot.github.io//blog/jekyll/update/2025/03/08/AMD-YOLO.html") --- **完** ---