DeepSeek开源周,第六弹再次来袭,DeepSeek-V3/R1推理系统总结


周末,deepseek 还在更新,太拼了!!!


DeepSeek-V3/R1 推理系统通过**跨节点专家并行(EP)**技术优化了吞吐量和延迟,主要设计原则包括:

  1. 跨节点专家并行(EP)

    • 通过扩大批量大小提升 GPU 矩阵计算效率,增加吞吐量。

    • 将专家分布到多个 GPU 上,减少每个 GPU 的内存访问需求,降低延迟。

    • 但 EP 增加了系统复杂性,需要解决跨节点通信和负载均衡问题。

  2. 大规模跨节点 EP

    • 模型稀疏性高(每层 256 个专家中仅激活 8 个),需要超大规模批量处理来保证每个专家的批量足够大。

    • 在预填充阶段和推理阶段分别采用不同的并行策略(如 Routed Expert EP32 和 EP144),以适应不同阶段的计算需求。

  3. 计算-通信重叠

    • 通过"双批次"策略,将通信开销隐藏在计算中,提升吞吐量。

    • 预填充阶段:交替执行两个微批次,通信开销被计算隐藏。

    • 推理阶段:通过 5 阶段流水线和注意力层拆分实现通信与计算的重叠。

  4. 负载均衡

    • 预填充负载均衡器

      平衡 GPU 的核心注意力计算和输入负载。

    • 推理负载均衡器

      平衡 KVCache 使用率和请求分配。

    • 专家并行负载均衡器

      平衡每个 GPU 上的专家计算负载,避免某些 GPU 成为性能瓶颈。


在线服务数据:

  • 硬件

    所有推理服务运行在 H800 GPU 上,采用与训练一致的精度(FP8 和 BF16 格式)。

  • 节点使用情况

    白天高峰期最多部署 278 个节点,平均 226.75 个节点,日成本约 $87,072。

  • 性能

    • 每个 H800 节点输入吞吐量约 73.7k tokens/s(预填充阶段),输出吞吐量约 14.8k tokens/s(推理阶段)。

    • 24 小时内总输入 token 数达 608B,输出 token 数 168B,平均输出速度 20--22 tokens/s。

  • 收入与成本

    • 若按 R1 定价收费,日收入可达 $562,027,成本利润率 545%。

    • 实际收入较低,原因是 DeepSeek-V3 定价更低、部分服务免费以及夜间折扣。


总结:

DeepSeek-V3/R1 推理系统通过跨节点 EP、计算-通信重叠和负载均衡技术,实现了高吞吐量和低延迟,同时通过动态资源分配优化了成本和性能。

git地址:

https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

相关推荐
徐小夕@趣谈前端18 小时前
Web文档的“Office时刻“:jitword共建版2.0发布!让浏览器变成本地生产力
前端·数据结构·vue.js·算法·开源·编辑器·es6
CoderJia程序员甲20 小时前
GitHub 热榜项目 - 日榜(2026-02-05)
ai·开源·大模型·github·ai教程
LeoZY_20 小时前
开源项目精选:Dear ImGui —— 轻量高效的 C++ 即时模式 GUI 框架
开发语言·c++·ui·开源·开源软件
开源能源管理系统21 小时前
MyEMS开源能源管理系统:赋能食品制造业绿色高效生产
开源·能源·能源管理系统
Coco恺撒21 小时前
【脑机接口】难在哪里,【人工智能】如何破局(2.研发篇)
人工智能·深度学习·开源·人机交互·脑机接口
张3蜂1 天前
身份证识别接口方案
人工智能·python·开源
梦梦代码精1 天前
Gitee 年度人工智能竞赛开源项目评选揭晓!!!
开发语言·数据库·人工智能·架构·gitee·前端框架·开源
开源能源管理系统1 天前
MyEMS开源能源管理系统——实操导向,生态共建,解锁工业节能减碳新价值
开源·能源·能源管理系统·零碳工厂
万岳软件开发小城1 天前
同城O2O系统如何支撑高并发?外卖跑腿系统源码架构深度拆解
开源·同城外卖系统源码·外卖跑腿小程序·同城o2o系统源码·外卖软件开发·外卖平台搭建
开源能源管理系统1 天前
MyEMS开源能源管理系统:赋能化学药品原料药制造业绿色低碳转型
开源·能源·能源管理系统