AMD 跑 DeepSeek 性能超 H200!128 并发 Token 间延迟不超 50ms,吞吐量达 H200 五倍

DeepSeek-R1 掀起新一轮购卡潮的同时,AMD 的含金量也上升了。

在 AMD 的 MI300X 上跑 FP8 满血 R1,性能全面超越了英伟达 H200------

相同延迟下吞吐量最高可达 H200 的 5 倍,相同并发下则比 H200 高出 75%。

这个结果,一方面归功于 SGLang 框架,另一方面则是得益于 AMD 新优化的 AI 内核库 AITER。

AITER 可以用来加速 GPU 训练和推理,AMD 副总裁 Emad Barsoum 直接喊出了 AITER is all you need

还有网友表示,英伟达 CUDA 的护城河要终结了

之前著名黑客 George Hotz 也曾表示自己非常看好 AMD,认为只要有好的软件 MI300X 表现就能超越 H100。

结果 MI300X 超额实现了 George 的期待,直接把 H200 给超了。

吞吐翻倍、延迟更低

AMD 的测试结果显示,MI300X 在延迟相似的情况下实现了 H200 五倍的吞吐量,超过了每秒 7k Tokens。

如果固定并发数量,MI300X 相同并发下的吞吐量比 H200 高 75%,延迟降低 60%。

如果需要 Token 间延迟不超过 50 毫秒,一个 H200 节点可以处理 16 个并发请求,MI300X 节点则可以处理 128 个

除了 AMD 自己,也有第三方对 H100 和 MI300X 进行了对比测试。

结果除了首个 Token 延迟出现了一些不稳定之外,其余的速度和延迟指标都是 MI300X 全面超过了 H100。

看到 MI300X 的表现,有人拿出了老黄经典的那句 "买的越多省的越多",表示现在这句话该让 AMD 来说了。

那么,在这些成绩的背后,AMD 都用了那些技术呢?

SGLang 框架 + AMD 张量引擎

软件框架层面,R1 在 MI300X 上取得优异表现的关键,是 SGLang 框架

SGLang 是一个开源大模型推理框架,是开源社区协作的一项成果,发起者是 LMSYS,也就是搞大模型竞技场的那个组织。

SGLang 在 GitHub 上拥有超过 1.2 万星标,并且不论 AMD 还是隔壁英伟达,以及马斯克的 xAI,都非常青睐这个框架,此外 AMD 还是 SGLang 的主要贡献者之一。

在稍早一些的测试当中,使用 SGLang 在 MI300X 上运行 DeepSeek-R1,仅过了两周就相比于 day 0 时性能提升到了 4 倍,吞吐量达到了每秒 5921 Tokens。

前面提到的第三方,也在 MI300X 上分别用 SGLang 和 vLLM 进行了测试,结果 SGLang 完胜。

实际上,SGLang 一直是 DeepSeek 模型的一个最佳拍档,不仅对于 AMD,在英伟达 H200 上,也能带来类似的性能提升。

而在硬件层面,MI300X 高效运行 R1 的关键,是 AMD 为 ROCm(可以理解为 AMD 版 CUDA)打造的 AI 张量引擎 AITER

AITER 是一个包含大量高性能 AI 算子的集中式存储库,也是一个统一平台,可以轻松找到优化的算子并将其集成到现有框架中。

AITER 的基础架构建立在多种底层技术之上,包括 Triton、CK(计算内核)、ASM(汇编)和 HIP(异构可移植性接口)。

它支持各种计算任务,例如推理工作负载、训练内核、GEMM(通用矩阵乘法)运算和通信内核。

它可以让 GEMM 的性能提升 2 倍、MoE 性能提升 3 倍、MLA 解码性能提升 17 倍、MHA 预填充性能提升 14 倍。

开启 AITER 后,MI300X 上 DeepSeek-V3 的吞吐量是开启前的两倍多。

除了框架和硬件的适配,AMD 还进行了超参数调整

AMD 发现,当运行具有大量线程(例如 128 个或更多)的程序时, 由于预填充吞吐量缓慢,带来了系统的性能瓶颈。

于是 AMD 提高了 chunked_prefill_size 参数的大小,用更高的内存占用换取了预填充过程的加速。

不过考虑到内存容量大本就是 MI300X 的一大特色,这种选择也不失为一种更优的结果。

那么,你觉得这次 AMD 是不是又 Yes 了呢?

参考链接:

1\][rocm.blogs.amd.com/artificial-...](https://link.juejin.cn?target=https%3A%2F%2Frocm.blogs.amd.com%2Fartificial-intelligence%2FDeepSeekR1-Part2%2FREADME.html "https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1-Part2/README.html") \[2\][x.com/tngtech/sta...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Ftngtech%2Fstatus%2F1901779226602115076 "https://x.com/tngtech/status/1901779226602115076") \[3\][geohot.github.io//blog/jekyl...](https://link.juejin.cn?target=https%3A%2F%2Fgeohot.github.io%2F%2Fblog%2Fjekyll%2Fupdate%2F2025%2F03%2F08%2FAMD-YOLO.html "https://geohot.github.io//blog/jekyll/update/2025/03/08/AMD-YOLO.html") --- **完** ---

相关推荐
坐吃山猪4 分钟前
Python-UV多环境管理
人工智能·python·uv
努力也学不会java18 分钟前
【Java并发】揭秘Lock体系 -- condition等待通知机制
java·开发语言·人工智能·机器学习·juc·condition
武子康26 分钟前
AI-调查研究-90-具身智能 机器人数据采集与通信中间件全面解析:ROS/ROS2、LCM 与工业总线对比
人工智能·ai·中间件·机器人·职场发展·个人开发·具身智能
新知图书38 分钟前
大模型架构之GPT、LLaMA与PaLM模型
人工智能·gpt·语言模型·大模型应用开发·大模型应用
lisw0540 分钟前
大模型的第一性原理考量:基于物理本质与数学基础的范式重构
网络·人工智能·机器学习
后端小肥肠42 分钟前
Coze+liblib 强强联合!阿容容治愈插画、灵魂画手素描、火柴人漫画,一键生成不翻车
人工智能·aigc·coze
一条数据库1 小时前
中文粤语(广州)语音语料库:6219条高质量语音数据助力粤语语音识别与自然语言处理研究
人工智能·自然语言处理·语音识别
ZHOU_WUYI1 小时前
构建AI安全防线:基于越狱检测的智能客服守护系统
人工智能·安全
l1t1 小时前
编译Duckdb机器学习插件QuackML
数据库·c++·人工智能·机器学习·插件·duckdb
Sunhen_Qiletian1 小时前
从语言到向量:自然语言处理核心转换技术的深度拆解与工程实践导论(自然语言处理入门必读)
人工智能·自然语言处理