DeepSeek开源周，第六弹再次来袭，DeepSeek-V3/R1推理系统总结

周末，deepseek 还在更新，太拼了！！！

DeepSeek-V3/R1 推理系统通过**跨节点专家并行（EP）**技术优化了吞吐量和延迟，主要设计原则包括：

跨节点专家并行（EP）：
- 通过扩大批量大小提升 GPU 矩阵计算效率，增加吞吐量。
- 将专家分布到多个 GPU 上，减少每个 GPU 的内存访问需求，降低延迟。
- 但 EP 增加了系统复杂性，需要解决跨节点通信和负载均衡问题。
大规模跨节点 EP：
- 模型稀疏性高（每层 256 个专家中仅激活 8 个），需要超大规模批量处理来保证每个专家的批量足够大。
- 在预填充阶段和推理阶段分别采用不同的并行策略（如 Routed Expert EP32 和 EP144），以适应不同阶段的计算需求。
计算-通信重叠：
- 通过"双批次"策略，将通信开销隐藏在计算中，提升吞吐量。
- 预填充阶段：交替执行两个微批次，通信开销被计算隐藏。
- 推理阶段：通过 5 阶段流水线和注意力层拆分实现通信与计算的重叠。
负载均衡：
- 预填充负载均衡器
  
  平衡 GPU 的核心注意力计算和输入负载。
- 推理负载均衡器
  
  平衡 KVCache 使用率和请求分配。
- 专家并行负载均衡器
  
  平衡每个 GPU 上的专家计算负载，避免某些 GPU 成为性能瓶颈。

硬件

所有推理服务运行在 H800 GPU 上，采用与训练一致的精度（FP8 和 BF16 格式）。
节点使用情况

白天高峰期最多部署 278 个节点，平均 226.75 个节点，日成本约 $87,072。
性能
- 每个 H800 节点输入吞吐量约 73.7k tokens/s（预填充阶段），输出吞吐量约 14.8k tokens/s（推理阶段）。
- 24 小时内总输入 token 数达 608B，输出 token 数 168B，平均输出速度 20--22 tokens/s。
收入与成本
- 若按 R1 定价收费，日收入可达 $562,027，成本利润率 545%。
- 实际收入较低，原因是 DeepSeek-V3 定价更低、部分服务免费以及夜间折扣。

DeepSeek-V3/R1 推理系统通过跨节点 EP、计算-通信重叠和负载均衡技术，实现了高吞吐量和低延迟，同时通过动态资源分配优化了成本和性能。

git地址：