借助 NVIDIA Base Command Platform 简化作业初始化和基于 CPU 的任务

这篇文章最初发表在 NVIDIA 技术博客上。

NVIDIA Base Command 平台 提供了日益精简的软件服务工作流程,旨在加速 AI 开发。本文将介绍近期添加的一些新功能,包括:

  • 一键式环境部署,快速入门
  • 用于轻计算任务的 CPU 节点
  • 借助 Data Mover 高效提取数据
  • 使用机密管理服务 (SMS) 保护数据和协作工作流程

轻松进行环境初始化

在超级计算机上启动探索环境从未如此简单。

借助"Quick Start"(快速启动)功能,团队可以以编程方式定义其常用配置,从 GPU 和 CPU 实例类型、内存和存储需求到添加数据集、工作空间、交换容器,甚至设置默认命令。这些都定义为一个模板,只需在 Base Command 控制面板中单击一下即可启动。

除了自己构建模板外,您还可以利用 NVIDIA 构建的快速入门目录。JupyterLab 和 Dask+RAPIDS 的默认快速入门现已推出。随着目录的不断发展,数据科学家现在使用的各种工具集将更易于使用 GPU 加速的数据科学。

软件和硬件的深度集成是 Base Command Platform 的核心原则,快速启动也不例外。 NVIDIA 自定义调度程序可确保在集群中适当路由这些用户定义的环境需求,以确保所有作业的高集群利用率。Base Command Platform 使困难的事情变得简单。

支持各种工作负载

CPU 实例现已在 Base Command Platform 中提供。将 CPU 和 GPU 实例添加到加速计算环境 (ACE) 可为 AI 工作流程带来灵活性、优化和成本效益。

CPU 实例非常适合执行不需要 GPU 计算强度的预处理和数据整理任务。然后 GPU 实例可以免费用于训练等计算密集型任务。

使用 Base Command Platform 中的 CPU 节点执行各种任务,从下载数据集和运行 Notebook 到编辑代码、浏览数据集内的文件,甚至运行 TensorBoard 等监控工具。

您还可以在 Base Command Platform 中跨 CPU 和 GPU 节点获得无缝体验。CPU 实例可以利用与 GPU 工作负载关联的现有结构,例如与共享资源(例如数据集)的交互。与现有 GPU 体验一样,您将获得默认 CPU 配额、运行时间限制,并能够在用户界面中体验 CPU 遥测。

要在 Base Command Platform 中为您的组织请求 CPU 节点,请联系您的客户团队。

简化数据导入和导出

借助 Data Mover 功能,在 Base Command Platform 中管理数据工作流程比以往更简单。

Data Mover 支持将外部对象数据集直接导入 Base Command 平台存储,通过 NVIDIA NGC CLI。虽然 Base Command Platform 支持在训练作业期间连接外部对象数据集,但团队通常会选择将数据集引入 Base Command Platform,以利用我们针对 ACE 内部计算相邻存储进行的性能优化。

Data Mover 与我们都非常关心的两个方面有着密切的联系:利用率和安全性。Data Mover 使团队能够在 CPU 节点上执行数据处理工作,从而使 GPU 节点能够自由参与计算密集型工作负载。wget 永远不应束缚 GPU 周期。在安全方面,Data Mover 要求使用指定的密钥设置 NGC Secret.

现已提供以下功能:数据集导入、数据集导出和工作空间导出。自定义默认 Dask+ NVIDIA RAPIDS Quick Start 和定义重复数据移动作业的能力强强联合。

安全协作工作流程

在应用程序中处理 API 密钥或令牌等敏感数据是一个关键问题。您可以将安全最佳实践设为默认做法,同时仍然提供有趣的协作功能。

Secrets Management Service (SMS) 与 Base Command Platform 作业集成,支持直接注入隐藏的环境变量。除非您决定将信息显示出来,否则信息将保持隐私状态。

此时,组织必须启用 Secrets Management 才能使用 SMS.启用后,可以通过 Web UI 设置页面和版本 3.21.1 的 NGC CLI 访问 SMS.

总结

NVIDIA Base Command Platform 使团队能够简化 NVIDIA GPU 上的高性能工作负载。借助最近添加的功能,您可以快速初始化作业、更好地管理数据工作流、支持各种工作负载,并保护敏感信息。

阅读原文

相关推荐
扫地的小何尚9 天前
NVIDIA RTX 系统上使用 llama.cpp 加速 LLM
人工智能·aigc·llama·gpu·nvidia·cuda·英伟达
布鲁格若门9 天前
AMD CPU下pytorch 多GPU运行卡死和死锁解决
人工智能·pytorch·python·nvidia
centurysee11 天前
【一文搞懂】GPU硬件拓扑与传输速度
gpu·nvidia
算家云18 天前
moffee模型部署教程
人工智能·python·github·markdown·nvidia·ppt·幻灯片制作
坐望云起1 个月前
Ubuntu20.04 更新Nvidia驱动 + 安装CUDA12.1 + cudnn8.9.7
linux·ubuntu·nvidia·cuda·onnx·1024程序员节
RZer1 个月前
NVIDIA 发布适用于网络安全的 NIM Blueprint
安全·web安全·nvidia
LifeBackwards1 个月前
Ubuntu安装nvidia显卡驱动
ubuntu·显卡·nvidia
great-wind1 个月前
麒麟系统离线安装英伟达驱动
nvidia
utmhikari1 个月前
【DIY小记】新手小白超频i9-12900kf和3070ti经验分享
cpu·显卡·nvidia·超频·微星
学森杰登1 个月前
大模型生成PPT大纲优化方案:基于 nVidia NIM 平台的递归结构化生成
人工智能·python·自然语言处理·chatgpt·powerpoint·nvidia