AMD 跑 DeepSeek 性能超 H200!128 并发 Token 间延迟不超 50ms,吞吐量达 H200 五倍

DeepSeek-R1 掀起新一轮购卡潮的同时,AMD 的含金量也上升了。

在 AMD 的 MI300X 上跑 FP8 满血 R1,性能全面超越了英伟达 H200------

相同延迟下吞吐量最高可达 H200 的 5 倍,相同并发下则比 H200 高出 75%。

这个结果,一方面归功于 SGLang 框架,另一方面则是得益于 AMD 新优化的 AI 内核库 AITER。

AITER 可以用来加速 GPU 训练和推理,AMD 副总裁 Emad Barsoum 直接喊出了 AITER is all you need

还有网友表示,英伟达 CUDA 的护城河要终结了

之前著名黑客 George Hotz 也曾表示自己非常看好 AMD,认为只要有好的软件 MI300X 表现就能超越 H100。

结果 MI300X 超额实现了 George 的期待,直接把 H200 给超了。

吞吐翻倍、延迟更低

AMD 的测试结果显示,MI300X 在延迟相似的情况下实现了 H200 五倍的吞吐量,超过了每秒 7k Tokens。

如果固定并发数量,MI300X 相同并发下的吞吐量比 H200 高 75%,延迟降低 60%。

如果需要 Token 间延迟不超过 50 毫秒,一个 H200 节点可以处理 16 个并发请求,MI300X 节点则可以处理 128 个

除了 AMD 自己,也有第三方对 H100 和 MI300X 进行了对比测试。

结果除了首个 Token 延迟出现了一些不稳定之外,其余的速度和延迟指标都是 MI300X 全面超过了 H100。

看到 MI300X 的表现,有人拿出了老黄经典的那句 "买的越多省的越多",表示现在这句话该让 AMD 来说了。

那么,在这些成绩的背后,AMD 都用了那些技术呢?

SGLang 框架 + AMD 张量引擎

软件框架层面,R1 在 MI300X 上取得优异表现的关键,是 SGLang 框架

SGLang 是一个开源大模型推理框架,是开源社区协作的一项成果,发起者是 LMSYS,也就是搞大模型竞技场的那个组织。

SGLang 在 GitHub 上拥有超过 1.2 万星标,并且不论 AMD 还是隔壁英伟达,以及马斯克的 xAI,都非常青睐这个框架,此外 AMD 还是 SGLang 的主要贡献者之一。

在稍早一些的测试当中,使用 SGLang 在 MI300X 上运行 DeepSeek-R1,仅过了两周就相比于 day 0 时性能提升到了 4 倍,吞吐量达到了每秒 5921 Tokens。

前面提到的第三方,也在 MI300X 上分别用 SGLang 和 vLLM 进行了测试,结果 SGLang 完胜。

实际上,SGLang 一直是 DeepSeek 模型的一个最佳拍档,不仅对于 AMD,在英伟达 H200 上,也能带来类似的性能提升。

而在硬件层面,MI300X 高效运行 R1 的关键,是 AMD 为 ROCm(可以理解为 AMD 版 CUDA)打造的 AI 张量引擎 AITER

AITER 是一个包含大量高性能 AI 算子的集中式存储库,也是一个统一平台,可以轻松找到优化的算子并将其集成到现有框架中。

AITER 的基础架构建立在多种底层技术之上,包括 Triton、CK(计算内核)、ASM(汇编)和 HIP(异构可移植性接口)。

它支持各种计算任务,例如推理工作负载、训练内核、GEMM(通用矩阵乘法)运算和通信内核。

它可以让 GEMM 的性能提升 2 倍、MoE 性能提升 3 倍、MLA 解码性能提升 17 倍、MHA 预填充性能提升 14 倍。

开启 AITER 后,MI300X 上 DeepSeek-V3 的吞吐量是开启前的两倍多。

除了框架和硬件的适配,AMD 还进行了超参数调整

AMD 发现,当运行具有大量线程(例如 128 个或更多)的程序时, 由于预填充吞吐量缓慢,带来了系统的性能瓶颈。

于是 AMD 提高了 chunked_prefill_size 参数的大小,用更高的内存占用换取了预填充过程的加速。

不过考虑到内存容量大本就是 MI300X 的一大特色,这种选择也不失为一种更优的结果。

那么,你觉得这次 AMD 是不是又 Yes 了呢?

参考链接:

1\][rocm.blogs.amd.com/artificial-...](https://link.juejin.cn?target=https%3A%2F%2Frocm.blogs.amd.com%2Fartificial-intelligence%2FDeepSeekR1-Part2%2FREADME.html "https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1-Part2/README.html") \[2\][x.com/tngtech/sta...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Ftngtech%2Fstatus%2F1901779226602115076 "https://x.com/tngtech/status/1901779226602115076") \[3\][geohot.github.io//blog/jekyl...](https://link.juejin.cn?target=https%3A%2F%2Fgeohot.github.io%2F%2Fblog%2Fjekyll%2Fupdate%2F2025%2F03%2F08%2FAMD-YOLO.html "https://geohot.github.io//blog/jekyll/update/2025/03/08/AMD-YOLO.html") --- **完** ---

相关推荐
三花AI2 分钟前
DeepSeek-V3 非推理模型首次登顶排行榜,开源模型里程碑时刻啊!
deepseek
申耀的科技观察7 分钟前
【观察】分布式智能云:破解AI转型困局,打通智能化落地“最后一公里”
人工智能·分布式
合合技术团队10 分钟前
理解文字识别:一文读懂OCR商业化产品的算法逻辑
大数据·人工智能·算法
自由鬼14 分钟前
企业在本地部署 Hugging Face后如何微调
人工智能·python·深度学习
爱分享的花宝20 分钟前
Dify +飞书多维表格: 实现一键识别票据到Execl表格
人工智能·deepseek
Bony-23 分钟前
适合各个层次的 7 个计算机视觉项目【1】:植物病害检测
人工智能·计算机视觉
蹦蹦跳跳真可爱58925 分钟前
Python----计算机视觉处理(Opencv:图像旋转:插值方法,边缘填充方法)
人工智能·opencv·计算机视觉
Lx35226 分钟前
📌中小团队突围指南:低资源玩转AI落地的5种姿势
人工智能
RWKV元始智能26 分钟前
全新开源!边缘设备也可运行的推理模型 RWKV7-G1 0.4B 正式发布
人工智能·架构·开源
结构化知识课堂29 分钟前
Axure项目实战:智慧城市APP(六)市民互动(动态面板、显示与隐藏)
人工智能·智慧城市·axure·动态面板