高性能、低成本推理新标准：NVIDIA Dynamo 1.0 现已上线 DigitalOcean 推理云平台

上周在 NVIDIA GTC 上发布的 NVIDIA Dynamo 1.0 现已面向 DigitalOcean 客户开放，有助于提升性能并降低成本。NVIDIA Dynamo 1.0 在 NVIDIA GB200 NVL 系统上提供 7 倍推理性能提升，通过与 DigitalOcean 的智能推理云结合，客户可以以更低的成本获得更高性能，同时受益于无缝部署。在共同努力下，DigitalOcean 与 NVIDIA 的优化已经为 Workato 等客户实现了 67% 的成本节省，而这一代新的 Dynamo 可以为企业级智能体（AI Agent）工作流解锁更大的收益。DigitalOcean 客户可以通过容器镜像获取 NVIDIA Dynamo 1.0，可以在 Droplet 云服务器上运行，也可以与推理运行时（vLLM、SGLang、TensorRT）一起直接部署在 DigitalOcean Kubernetes 上。

什么是 NVIDIA Dynamo 1.0？

NVIDIA Dynamo 是一个高性能推理服务框架，专为加速和优化大规模生成式 AI 和推理模型而设计。Dynamo 作为一个编排层，运行在 vLLM、SGLang 和 NVIDIA TensorRT-LLM 等引擎之上。你可以把它想象成 GPU 集群的分布式交通控制器，无缝编排跨集群的 GPU 和内存资源，并通过智能路由减少瓶颈。

Dynamo 1.0 提供的关键技术突破包括：

7 倍性能提升：与 NVIDIA Blackwell Ultra GPU 搭配使用时，Dynamo 可将推理性能提升高达 7 倍，显著降低每个 token 的成本。
KV 感知路由：Dynamo 摒弃了简单的轮询负载均衡，而是将请求路由到已在对话历史中缓存了相关"记忆"的特定 GPU 上。
分离式服务：Dynamo 将"预填充"（读取提示词）和"解码"（生成答案）两个阶段拆分到不同的 GPU 上执行，从而最大化利用率并降低延迟。
内存卸载：KV 块管理器（KVBM）在高速 GPU 内存与低成本的存储层之间动态迁移数据，使您能够处理超长上下文窗口而无需担心内存上限。

DigitalOcean 如何使用 Dynamo 优化推理工作负载以提升吞吐量和降低延迟

使用 DigitalOcean 上的 NVIDIA Dynamo，客户既能享受出色的性价比，又能获得简单的部署流程以及与 Dynamo 架构高度契合的运行环境，尤其是在需要严格管控 GPU 集群、进行 KV 缓存优化和路由的场景下。DigitalOcean 已通过 NVIDIA Dynamo 为客户带来了实实在在的成效。近期，我们与 Workato 的 AI 研究实验室合作，在其平台上扩展了代理型 AI 能力，该平台处理着超过 1 万亿次自动化工作负载。为满足生产级推理对效率与成本的严苛要求，该团队在 DigitalOcean 托管 Kubernetes (DOKS) 上部署了 NVIDIA Dynamo 与 vLLM。

在 DOKS 上使用 NVIDIA Dynamo v0.4.1 与 vLLM，Workato 实现了：

**每 GPU 吞吐量提升 67%**，端到端延迟降低 79%，首 token 响应时间降低 77%（相较于在相同硬件上的其他配置）
**硬件成本降低 33%**：在实现同等性能的前提下，使用 NVIDIA H200 GPU 相比 NVIDIA A100 GPU 成本更低
**模型成本降低 67%**，同时所用 GPU 数量减半

欢迎查阅卓普云官网的技术博客，了解更多 Workato 如何在 DigitalOcean 上取得如此显著成效的细节。

借助 Dynamo 1.0 的强大能力以及全新推出的 NVIDIA HGX B300s，我们期待为像 Workato 这样的客户带来更进一步的性能提升与成本优化。

NVIDIA 和 DigitalOcean 推理优化的未来

除了 Dynamo 1.0，作为今年 NVIDIA GTC 的一部分，我们激动地分享其他产品发布和更新，以进一步增强 DigitalOcean 智能推理云的能力。包括我们全新的 AI 优先 Richmond 数据中心，无缝体验 NVIDIA Agent Toolkit 和 NemoClaw 并部署到 DigitalOcean，支持 NVIDIA Nemotron 3 Super 等高性能模型，以及更多内容。了解更多关于 DigitalOcean 和 NVIDIA GTC 的详细信息，可访问卓普云 AI Droplet 官网博客。

目前 NVIDIA B300 GPU 云服务器已经开放预约申请，现在联系卓普云 AI Droplet 可提前锁定 B300 GPU 云服务器资源。