英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

当 FP4 的魔法与 Blackwell 的强大算力相遇,会碰撞出怎样的火花?

答案是:推理性能暴涨 25 倍,成本狂降 20 倍!

随着 DeepSeek-R1 本地化部署的爆火,英伟达也亲自下场,开源了首个基于 Blackwell 架构的优化方案------DeepSeek-R1-FP4。

在新模型的加持下,B200 实现了高达 21,088 token 每秒的的推理吞吐量,相比于 H100 的 844 token 每秒,提升了 25 倍。

与此同时,每 token 的成本也实现了 20 倍的降低。

通过在 Blackwell 架构上应用 TensorRT DeepSeek 优化,英伟达让具有 FP4 生产级精度的模型,在 MMLU 通用智能基准测试中达到了 FP8 模型性能的 99.8%。

DeepSeek-R1 首次基于 Blackwell GPU 优化

目前,英伟达基于 FP4 优化的 DeepSeek-R1 检查点现已在 Hugging Face 上开源。

模型地址:huggingface.co/nvidia/Deep...

后训练量化

模型将 Transformer 模块内的线性算子的权重和激活量化到了 FP4,适用于 TensorRT-LLM 推理。

这种优化将每个参数从 8 位减少到 4 位,从而让磁盘空间和 GPU 显存的需求减少了约 1.6 倍。

使用 TensorRT-LLM 部署

要使用 TensorRT-LLM LLM API 部署量化后的 FP4 权重文件,并为给定的提示生成文本响应,请参照以下示例代码:

硬件要求:需要支持 TensorRT-LLM 的英伟达 GPU(如 B200),并且需要 8 个 GPU 来实现 tensor_parallel_size=8 的张量并行。

性能优化:代码利用 FP4 量化、TensorRT 引擎和并行计算,旨在实现高效、低成本的推理,适合生产环境或高吞吐量应用。

对于此次优化的成果,网友表示惊叹。

「FP4 魔法让 AI 未来依然敏锐!」网友 Isha 评论道。

网友 algorusty 则声称,有了这次的优化后,美国供应商能够以每百万 token 0.25 美元的价格提供 R1。

「还会有利润。」

网友 Phil 则将这次的优化与 DeepSeek 本周的开源 5 连发结合了起来。

「这展示了硬件和开源模型结合的可能性。」他表示。

DeepSeek 全面开源

如今 DeepSeek 持续 5 天的「开源周」已经进行到了第 3 天。

周一,他们开源了 FlashMLA。这是 DeepSeek 专为英伟达 Hopper GPU 打造的高效 MLA 解码内核,特别针对变长序列进行了优化,目前已正式投产使用。

周二开源了 DeepEP,这是一个专为混合专家系统(MoE)和专家并行(EP)设计的通信库。

周三开源的是 DeepGEMM。这是一个支持稠密和 MoE 模型的 FP8 GEMM(通用矩阵乘法)计算库,可为 V3/R1 的训练和推理提供强大支持。

总的来说,不管是英伟达开源的 DeepSeek-R1-FP4,还是 DeepSeek 开源的三个仓库,都是通过对英伟达 GPU 和集群的优化,来推动 AI 模型的高效计算和部署。

参考资料:

x.com/NVIDIAAIDev...

相关推荐
阿杰学AI2 小时前
AI核心知识53——大语言模型之Structured CoT 超级模版(简洁且通俗易懂版)
人工智能·ai·语言模型·prompt·提示词·pe·structured cot
hellocode_2 小时前
【2025年】GPT-5.2怎么样?Instant/Thinking/Pro 怎么选?如何订阅使用chatgptplus?GPT-5.2使用实例展示
人工智能·gpt·chatgpt
咚咚王者3 小时前
人工智能之数学基础 线性代数:第二章 向量空间
人工智能·线性代数
skywalk81633 小时前
SCNet 双DCU异构卡vllm推理部署DeepSeek-Coder-V2-Lite-Instruct
人工智能·vllm·scnet·deepseek-coder
aesthetician3 小时前
用铜钟听歌,发 SCI !
前端·人工智能·音频
UI设计兰亭妙微3 小时前
告别调度繁琐:北京兰亭妙微拆解货运 APP 的 “轻量高效设计密码”
人工智能·ui设计外包
Mxsoft6193 小时前
采样率设低致频谱混叠!某次谐波分析误判,提高采样率精准定位!
人工智能
有痣青年3 小时前
GPT‑5.2 翻车?GDPval 70.9% 的“基准胜利”为何换不来好口碑?
人工智能·openai·ai编程
平凡之路无尽路3 小时前
智能体设计模式:构建智能系统的实践指南
人工智能·设计模式·自然语言处理·nlp·aigc·vllm
骚戴3 小时前
架构视角:Gemini 3.0 Pro 原生多模态能力的边界与工程落地
人工智能·大模型·llm·api·ai gateway