AMD 跑 DeepSeek 性能超 H200!128 并发 Token 间延迟不超 50ms,吞吐量达 H200 五倍

DeepSeek-R1 掀起新一轮购卡潮的同时,AMD 的含金量也上升了。

在 AMD 的 MI300X 上跑 FP8 满血 R1,性能全面超越了英伟达 H200------

相同延迟下吞吐量最高可达 H200 的 5 倍,相同并发下则比 H200 高出 75%。

这个结果,一方面归功于 SGLang 框架,另一方面则是得益于 AMD 新优化的 AI 内核库 AITER。

AITER 可以用来加速 GPU 训练和推理,AMD 副总裁 Emad Barsoum 直接喊出了 AITER is all you need

还有网友表示,英伟达 CUDA 的护城河要终结了

之前著名黑客 George Hotz 也曾表示自己非常看好 AMD,认为只要有好的软件 MI300X 表现就能超越 H100。

结果 MI300X 超额实现了 George 的期待,直接把 H200 给超了。

吞吐翻倍、延迟更低

AMD 的测试结果显示,MI300X 在延迟相似的情况下实现了 H200 五倍的吞吐量,超过了每秒 7k Tokens。

如果固定并发数量,MI300X 相同并发下的吞吐量比 H200 高 75%,延迟降低 60%。

如果需要 Token 间延迟不超过 50 毫秒,一个 H200 节点可以处理 16 个并发请求,MI300X 节点则可以处理 128 个

除了 AMD 自己,也有第三方对 H100 和 MI300X 进行了对比测试。

结果除了首个 Token 延迟出现了一些不稳定之外,其余的速度和延迟指标都是 MI300X 全面超过了 H100。

看到 MI300X 的表现,有人拿出了老黄经典的那句 "买的越多省的越多",表示现在这句话该让 AMD 来说了。

那么,在这些成绩的背后,AMD 都用了那些技术呢?

SGLang 框架 + AMD 张量引擎

软件框架层面,R1 在 MI300X 上取得优异表现的关键,是 SGLang 框架

SGLang 是一个开源大模型推理框架,是开源社区协作的一项成果,发起者是 LMSYS,也就是搞大模型竞技场的那个组织。

SGLang 在 GitHub 上拥有超过 1.2 万星标,并且不论 AMD 还是隔壁英伟达,以及马斯克的 xAI,都非常青睐这个框架,此外 AMD 还是 SGLang 的主要贡献者之一。

在稍早一些的测试当中,使用 SGLang 在 MI300X 上运行 DeepSeek-R1,仅过了两周就相比于 day 0 时性能提升到了 4 倍,吞吐量达到了每秒 5921 Tokens。

前面提到的第三方,也在 MI300X 上分别用 SGLang 和 vLLM 进行了测试,结果 SGLang 完胜。

实际上,SGLang 一直是 DeepSeek 模型的一个最佳拍档,不仅对于 AMD,在英伟达 H200 上,也能带来类似的性能提升。

而在硬件层面,MI300X 高效运行 R1 的关键,是 AMD 为 ROCm(可以理解为 AMD 版 CUDA)打造的 AI 张量引擎 AITER

AITER 是一个包含大量高性能 AI 算子的集中式存储库,也是一个统一平台,可以轻松找到优化的算子并将其集成到现有框架中。

AITER 的基础架构建立在多种底层技术之上,包括 Triton、CK(计算内核)、ASM(汇编)和 HIP(异构可移植性接口)。

它支持各种计算任务,例如推理工作负载、训练内核、GEMM(通用矩阵乘法)运算和通信内核。

它可以让 GEMM 的性能提升 2 倍、MoE 性能提升 3 倍、MLA 解码性能提升 17 倍、MHA 预填充性能提升 14 倍。

开启 AITER 后,MI300X 上 DeepSeek-V3 的吞吐量是开启前的两倍多。

除了框架和硬件的适配,AMD 还进行了超参数调整

AMD 发现,当运行具有大量线程(例如 128 个或更多)的程序时, 由于预填充吞吐量缓慢,带来了系统的性能瓶颈。

于是 AMD 提高了 chunked_prefill_size 参数的大小,用更高的内存占用换取了预填充过程的加速。

不过考虑到内存容量大本就是 MI300X 的一大特色,这种选择也不失为一种更优的结果。

那么,你觉得这次 AMD 是不是又 Yes 了呢?

参考链接:

1\][rocm.blogs.amd.com/artificial-...](https://link.juejin.cn?target=https%3A%2F%2Frocm.blogs.amd.com%2Fartificial-intelligence%2FDeepSeekR1-Part2%2FREADME.html "https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1-Part2/README.html") \[2\][x.com/tngtech/sta...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Ftngtech%2Fstatus%2F1901779226602115076 "https://x.com/tngtech/status/1901779226602115076") \[3\][geohot.github.io//blog/jekyl...](https://link.juejin.cn?target=https%3A%2F%2Fgeohot.github.io%2F%2Fblog%2Fjekyll%2Fupdate%2F2025%2F03%2F08%2FAMD-YOLO.html "https://geohot.github.io//blog/jekyll/update/2025/03/08/AMD-YOLO.html") --- **完** ---

相关推荐
AC赳赳老秦4 分钟前
OpenClaw email技能:批量发送邮件、自动回复,高效处理工作邮件
运维·人工智能·python·django·自动化·deepseek·openclaw
用户78245208077923 分钟前
一些容易混淆的点(个人记录)
人工智能
胡志辉25 分钟前
OpenClaw 教程:新 Mac 从 0 配到国产 AI、飞书微信和无人值守
人工智能·神经网络
机器之心37 分钟前
全球第一,13个SOTA!我们找到了龙虾界掌管GUI的神
人工智能·openai
AI问答工程师38 分钟前
Meta Muse Spark 的"思维压缩"到底是什么?我用 Python 复现了核心思路(附代码)
人工智能·python
机器之心43 分钟前
大佬深度解析:Coding Agent的底层运行逻辑是什么?
人工智能·openai
爱吃的小肥羊43 分钟前
Claude降智再被实锤!推理能力严重下滑,用户连夜跑路 Codex
人工智能·aigc·openai
Rabbit_QL1 小时前
【理论分析】信息熵的极值问题:什么时候最小?什么时候最大?
人工智能·深度学习
❀͜͡傀儡师1 小时前
Spring AI Alibaba vs. AgentScope:两个阿里AI框架,如何选择?
java·人工智能·spring
njsgcs1 小时前
MPNN框架 消息生成与聚合 (公式 1)
人工智能