DeepSeek开源周,第六弹再次来袭,DeepSeek-V3/R1推理系统总结


周末,deepseek 还在更新,太拼了!!!


DeepSeek-V3/R1 推理系统通过**跨节点专家并行(EP)**技术优化了吞吐量和延迟,主要设计原则包括:

  1. 跨节点专家并行(EP)

    • 通过扩大批量大小提升 GPU 矩阵计算效率,增加吞吐量。

    • 将专家分布到多个 GPU 上,减少每个 GPU 的内存访问需求,降低延迟。

    • 但 EP 增加了系统复杂性,需要解决跨节点通信和负载均衡问题。

  2. 大规模跨节点 EP

    • 模型稀疏性高(每层 256 个专家中仅激活 8 个),需要超大规模批量处理来保证每个专家的批量足够大。

    • 在预填充阶段和推理阶段分别采用不同的并行策略(如 Routed Expert EP32 和 EP144),以适应不同阶段的计算需求。

  3. 计算-通信重叠

    • 通过"双批次"策略,将通信开销隐藏在计算中,提升吞吐量。

    • 预填充阶段:交替执行两个微批次,通信开销被计算隐藏。

    • 推理阶段:通过 5 阶段流水线和注意力层拆分实现通信与计算的重叠。

  4. 负载均衡

    • 预填充负载均衡器

      平衡 GPU 的核心注意力计算和输入负载。

    • 推理负载均衡器

      平衡 KVCache 使用率和请求分配。

    • 专家并行负载均衡器

      平衡每个 GPU 上的专家计算负载,避免某些 GPU 成为性能瓶颈。


在线服务数据:

  • 硬件

    所有推理服务运行在 H800 GPU 上,采用与训练一致的精度(FP8 和 BF16 格式)。

  • 节点使用情况

    白天高峰期最多部署 278 个节点,平均 226.75 个节点,日成本约 $87,072。

  • 性能

    • 每个 H800 节点输入吞吐量约 73.7k tokens/s(预填充阶段),输出吞吐量约 14.8k tokens/s(推理阶段)。

    • 24 小时内总输入 token 数达 608B,输出 token 数 168B,平均输出速度 20--22 tokens/s。

  • 收入与成本

    • 若按 R1 定价收费,日收入可达 $562,027,成本利润率 545%。

    • 实际收入较低,原因是 DeepSeek-V3 定价更低、部分服务免费以及夜间折扣。


总结:

DeepSeek-V3/R1 推理系统通过跨节点 EP、计算-通信重叠和负载均衡技术,实现了高吞吐量和低延迟,同时通过动态资源分配优化了成本和性能。

git地址:

https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

相关推荐
冬奇Lab10 小时前
一天一个开源项目(第17篇):ViMax - 多智能体视频生成框架,导演、编剧、制片人全包
开源·音视频开发
一个处女座的程序猿12 小时前
AI之Agent之VibeCoding:《Vibe Coding Kills Open Source》翻译与解读
人工智能·开源·vibecoding·氛围编程
一只大侠的侠13 小时前
React Native开源鸿蒙跨平台训练营 Day16自定义 useForm 高性能验证
flutter·开源·harmonyos
IvorySQL14 小时前
PostgreSQL 分区表的 ALTER TABLE 语句执行机制解析
数据库·postgresql·开源
一只大侠的侠14 小时前
Flutter开源鸿蒙跨平台训练营 Day11从零开发商品详情页面
flutter·开源·harmonyos
一只大侠的侠14 小时前
React Native开源鸿蒙跨平台训练营 Day18自定义useForm表单管理实战实现
flutter·开源·harmonyos
一只大侠的侠14 小时前
React Native开源鸿蒙跨平台训练营 Day20自定义 useValidator 实现高性能表单验证
flutter·开源·harmonyos
晚霞的不甘15 小时前
Flutter for OpenHarmony 可视化教学:A* 寻路算法的交互式演示
人工智能·算法·flutter·架构·开源·音视频
晚霞的不甘16 小时前
Flutter for OpenHarmony 实现计算几何:Graham Scan 凸包算法的可视化演示
人工智能·算法·flutter·架构·开源·音视频
猫头虎16 小时前
OpenClaw-VSCode:在 VS Code 里玩转 OpenClaw,远程管理+SSH 双剑合璧
ide·vscode·开源·ssh·github·aigc·ai编程