高性能、低成本推理新标准:NVIDIA Dynamo 1.0 现已上线 DigitalOcean 推理云平台

上周在 NVIDIA GTC 上发布的 NVIDIA Dynamo 1.0 现已面向 DigitalOcean 客户开放,有助于提升性能并降低成本。NVIDIA Dynamo 1.0 在 NVIDIA GB200 NVL 系统上提供 7 倍推理性能提升,通过与 DigitalOcean 的智能推理云结合,客户可以以更低的成本获得更高性能,同时受益于无缝部署。在共同努力下,DigitalOcean 与 NVIDIA 的优化已经为 Workato 等客户实现了 67% 的成本节省,而这一代新的 Dynamo 可以为企业级智能体(AI Agent)工作流解锁更大的收益。DigitalOcean 客户可以通过容器镜像获取 NVIDIA Dynamo 1.0,可以在 Droplet 云服务器 上运行,也可以与推理运行时(vLLM、SGLang、TensorRT)一起直接部署在 DigitalOcean Kubernetes 上。

什么是 NVIDIA Dynamo 1.0?

NVIDIA Dynamo 是一个高性能推理服务框架,专为加速和优化大规模生成式 AI 和推理模型而设计。Dynamo 作为一个编排层,运行在 vLLM、SGLang 和 NVIDIA TensorRT-LLM 等引擎之上。你可以把它想象成 GPU 集群的分布式交通控制器,无缝编排跨集群的 GPU 和内存资源,并通过智能路由减少瓶颈。

Dynamo 1.0 提供的关键技术突破包括:

  • 7 倍性能提升:与 NVIDIA Blackwell Ultra GPU 搭配使用时,Dynamo 可将推理性能提升高达 7 倍,显著降低每个 token 的成本。
  • KV 感知路由:Dynamo 摒弃了简单的轮询负载均衡,而是将请求路由到已在对话历史中缓存了相关"记忆"的特定 GPU 上。
  • 分离式服务:Dynamo 将"预填充"(读取提示词)和"解码"(生成答案)两个阶段拆分到不同的 GPU 上执行,从而最大化利用率并降低延迟。
  • 内存卸载:KV 块管理器(KVBM)在高速 GPU 内存与低成本的存储层之间动态迁移数据,使您能够处理超长上下文窗口而无需担心内存上限。

DigitalOcean 如何使用 Dynamo 优化推理工作负载以提升吞吐量和降低延迟

使用 DigitalOcean 上的 NVIDIA Dynamo,客户既能享受出色的性价比,又能获得简单的部署流程以及与 Dynamo 架构高度契合的运行环境,尤其是在需要严格管控 GPU 集群、进行 KV 缓存优化和路由的场景下。DigitalOcean 已通过 NVIDIA Dynamo 为客户带来了实实在在的成效。近期,我们与 Workato 的 AI 研究实验室合作,在其平台上扩展了代理型 AI 能力,该平台处理着超过 1 万亿次自动化工作负载。为满足生产级推理对效率与成本的严苛要求,该团队在 DigitalOcean 托管 Kubernetes (DOKS) 上部署了 NVIDIA Dynamo 与 vLLM。

在 DOKS 上使用 NVIDIA Dynamo v0.4.1 与 vLLM,Workato 实现了:

  • **每 GPU 吞吐量提升 67%**,端到端延迟降低 79%,首 token 响应时间降低 77%(相较于在相同硬件上的其他配置)
  • **硬件成本降低 33%**:在实现同等性能的前提下,使用 NVIDIA H200 GPU 相比 NVIDIA A100 GPU 成本更低
  • **模型成本降低 67%**,同时所用 GPU 数量减半

欢迎查阅卓普云官网的技术博客,了解更多 Workato 如何在 DigitalOcean 上取得如此显著成效的细节

借助 Dynamo 1.0 的强大能力以及全新推出的 NVIDIA HGX B300s,我们期待为像 Workato 这样的客户带来更进一步的性能提升与成本优化。

NVIDIA 和 DigitalOcean 推理优化的未来

除了 Dynamo 1.0,作为今年 NVIDIA GTC 的一部分,我们激动地分享其他产品发布和更新,以进一步增强 DigitalOcean 智能推理云的能力。包括我们全新的 AI 优先 Richmond 数据中心,无缝体验 NVIDIA Agent Toolkit 和 NemoClaw 并部署到 DigitalOcean,支持 NVIDIA Nemotron 3 Super 等高性能模型,以及更多内容。了解更多关于 DigitalOcean 和 NVIDIA GTC 的详细信息,可访问卓普云 AI Droplet 官网博客。

目前 NVIDIA B300 GPU 云服务器已经开放预约申请,现在联系卓普云 AI Droplet 可提前锁定 B300 GPU 云服务器资源。

相关推荐
IT_陈寒10 分钟前
Python多进程共享变量那个坑,我差点没爬出来
前端·人工智能·后端
泰恒12 分钟前
国内外大模型的区别与差距
人工智能·深度学习·yolo·机器学习·计算机视觉
javaDocker22 分钟前
基于Hermes Agent 的 AI 可视化协同研发流水线—实现机制与实现逻辑
人工智能
北京耐用通信29 分钟前
耐达讯自动化CAN转EtherCAT网关:3步配置,赋能电机启动器智能化升级
人工智能·物联网·网络协议·自动化·信息与通信
GISer_Jing42 分钟前
AI资源白嫖——Trae国际版一周年福利,免费用一个月600次快速请求
人工智能·prompt·aigc
yfndsb1 小时前
从入门到落地:OpenClaw 全面介绍与全平台本地部署保姆级教程
人工智能·python·ai
皮尔卡Q1 小时前
十、“仿小红书”单体全栈项目开发实战(四)
aigc
陈广亮1 小时前
Claude Code Hooks 深度指南:让 AI 编程工具真正融入你的工作流
人工智能
加勒比海带661 小时前
目标检测算法——低空智能实验室开放数据集汇总附下载链接【点赞+收藏】
大数据·图像处理·人工智能·python·深度学习·目标检测·计算机视觉
皮尔卡Q1 小时前
八、“仿小红书”单体全栈项目开发实战(二)
aigc