一、文档说明
本文档详细介绍如何在阿里云PAI(人工智能平台)上,通过PAI-DSW(Data Science Workshop)服务,创建一个预装主流深度学习框架(PyTorch、TensorFlow等)和NVIDIA Isaac Lab的交互式开发环境,适用于具身智能、强化学习等相关研发场景,全程操作基于阿里云控制台可视化界面,无需复杂命令行配置,新手可快速上手。
关键说明:
-
主流深度学习框架:默认包含PyTorch、TensorFlow、NumPy等常用库,基于阿里云PAI官方镜像预装,无需手动安装。
-
NVIDIA Isaac Lab:一款基于Isaac Sim构建的高性能强化学习仿真框架,本文将通过指定专用镜像,实现一键预装,避免手动配置依赖的繁琐流程。
-
适用场景:机器人仿真、强化学习训练、具身智能算法开发等,需使用GPU资源保障运行效率。
二、前提准备
2.1 账号与权限准备
-
拥有阿里云账号,完成实名认证(个人/企业均可),确保账号余额充足(DSW实例按按量付费计费,新用户可领取免费试用资源包,支持连续使用700小时左右)。
-
开通PAI服务:登录阿里云控制台,搜索"人工智能平台 PAI",进入PAI产品页,点击"开通服务",按照提示完成授权(无需额外付费,开通后仅在创建实例时计费)。
-
权限配置:确保账号拥有"PAI管理员"或"交互式建模(DSW)操作权限",若为子账号,需主账号在RAM控制台分配对应权限(具体路径:RAM控制台→权限管理→添加权限→搜索"PAI"相关权限并关联)。
2.2 基础环境准备
-
浏览器:推荐使用Chrome、Edge等现代浏览器,避免兼容性问题。
-
网络环境:确保网络通畅,可正常访问阿里云控制台及公网镜像仓库(若使用内网镜像,需确保实例处于阿里云专有网络VPC内)。
-
可选:开通OSS服务(用于持久化存储开发文件、数据集,避免实例停止超过15天导致数据丢失),创建与PAI实例同地域的OSS Bucket。
三、详细操作流程
3.1 登录PAI控制台并进入工作空间
-
登录阿里云控制台(https://console.aliyun.com/),在顶部搜索框输入"PAI",点击进入"人工智能平台 PAI"控制台。
-
选择地域:在控制台左上角"地域"下拉框中,选择目标地域(推荐选择华东1(杭州)、华东2(上海)、华北2(北京)等支持Isaac Lab镜像的地域,具体以实际镜像可用性为准)。
-
进入工作空间:在左侧导航栏点击"工作空间列表",选择已创建的工作空间(若未创建,点击"创建工作空间",填写名称、描述,选择同地域,默认配置即可完成创建),点击进入工作空间详情页。
3.2 新建PAI-DSW实例(核心步骤)
此步骤将配置实例资源、选择预装深度学习框架和Isaac Lab的镜像,是环境搭建的核心环节。
-
进入DSW实例管理页:在工作空间左侧导航栏,点击"交互式建模(DSW)",进入DSW实例列表页,点击"新建实例"。
-
基础信息配置(无需修改默认值,可按需调整):
-
实例名称:自定义名称(如"dsw-isaac-lab-demo"),便于后续识别。
-
标签:可选,根据业务需求添加标签(如"Isaac Lab""强化学习"),便于资源分类管理。
-
-
资源配置(关键,需满足Isaac Lab运行要求):
-
资源类型:选择"公共资源",计费方式为按量付费(灵活按需使用,无需长期占用资源),新用户可选择"免费试用"资源(需提前领取试用包)。
-
资源规格:选择支持GPU的实例规格,推荐以下两种(根据需求选择):
-
基础规格:ecs.gn7i-c8g1.2xlarge(1张A10 GPU、8 vCPU、30 GiB内存),适用于简单仿真和算法调试。
-
推荐规格:ecs.gn8is.2xlarge(单张48G显存L20 GPU,8核CPU / 128G内存),适用于复杂场景的强化学习训练和Isaac Lab Arena任务开发。
-
-
说明:若所选规格库存不足,可尝试选择列表中其他GPU规格;每个阿里云账号(主账号)在每个Region有2卡GPU的限制,超出需提交工单提升限额。
-
-
环境配置(核心,预装深度学习框架+Isaac Lab):
-
镜像配置:选择"官方镜像",通过搜索框输入Isaac Lab专用镜像地址(根据实例网络类型选择):
-
专网镜像(推荐,拉取速度更快):dsw-registry-vpc.${regionId}.cr.aliyuncs.com/pai-training-algorithm/isaac-sim:isaaclab-arena-gr00t-vnc-v3-20260307
-
公网镜像:dsw-registry.${regionId}.cr.aliyuncs.com/pai-training-algorithm/isaac-sim:isaaclab-arena-gr00t-vnc-v3-20260307
-
-
镜像说明:该镜像已预装NVIDIA Isaac Lab、Isaac Sim,以及主流深度学习框架(PyTorch 2.8.0、TensorFlow 2.11等)、CUDA 12.4、Python 3.11等依赖,无需手动安装,镜像命名遵循阿里云PAI官方规范,可通过名称识别核心配置。
-
系统盘:默认赠送100 GiB免费云盘(公共资源实例),可按需扩容,注意:若实例停止超过15天,免费云盘内容将被清空,重要数据需备份至OSS。
-
-
存储挂载(可选,推荐配置,实现数据持久化):
-
点击"存储挂载",选择"OSS",点击图标选择已创建的OSS Bucket,新建目录(如"pai-dsw-isaac"),配置挂载路径(推荐"/mnt/data/"),点击"确认"。
-
作用:将OSS存储挂载到实例,开发过程中的文件、数据集、模型可直接保存到OSS,避免实例删除或停止后数据丢失,同时支持多实例共享数据。
-
-
访问配置(可选,按需调整):
-
若需通过本地VSCode、PyCharm远程开发,可启用"SSH",填入SSH公钥,选择公网访问方式,关联NAT网关和弹性公网IP(EIP)。
-
若需将实例内的Web服务(如Isaac Sim可视化界面)发布到公网,可添加自定义服务,配置服务端口并启用公网访问,同时在安全组中添加入方向规则,放行该端口。
-
-
确认创建:检查所有配置无误后,点击"确定",进入实例创建流程,等待5-10分钟(镜像拉取时间取决于网络速度)。
-
实例状态检查:返回DSW实例列表,当实例状态变为"运行中",说明实例创建成功;若启动失败,可参考阿里云帮助中心"DSW实例启动失败"相关文档排查问题。
3.3 进入交互式开发环境并验证配置
-
打开DSW环境:在实例列表页,找到已创建的实例,点击右侧"操作"列下的"打开"按钮,自动跳转至DSW交互式开发界面(基于Web的IDE,支持Notebook、VSCode两种模式)。
-
选择开发模式:
-
Notebook模式(推荐):适合快速调试代码、运行仿真任务,点击启动台"创建Notebook",选择Python 3环境,创建新的Notebook文件(.ipynb)。
-
VSCode模式:适合大型项目开发,点击启动台"打开VSCode",进入VSCode界面,可新建文件、配置项目结构。
-
-
验证深度学习框架(以PyTorch、TensorFlow为例):
- 在Notebook中新建代码单元格,输入以下代码,点击"运行",查看输出结果,确认框架正常运行:`# 验证PyTorch
import torch
print("PyTorch版本:", torch.version)
print("CUDA是否可用:", torch.cuda.is_available())
验证TensorFlow
import tensorflow as tf
print("TensorFlow版本:", tf.version)
print("CUDA是否可用:", tf.test.is_built_with_cuda())`
- 若输出正常版本号且CUDA可用,说明深度学习框架预装成功,可正常使用GPU加速。
- 在Notebook中新建代码单元格,输入以下代码,点击"运行",查看输出结果,确认框架正常运行:`# 验证PyTorch
-
验证NVIDIA Isaac Lab:
- 在Notebook中新建代码单元格,输入以下代码,运行验证Isaac Lab是否正常导入:
`# 验证Isaac Lab
from omni.isaac.lab.app import AppLauncher
from omni.isaac.lab.envs import ManagerBasedRLEnv
查看Isaac Lab版本(可选)
import omni.isaac.lab
print("Isaac Lab版本:", omni.isaac.lab.version)
启动简单仿真环境(测试可用性)
app_launcher = AppLauncher(headless=False)
env_cfg = ManagerBasedRLEnv.cfg_cls()
env = ManagerBasedRLEnv(cfg=env_cfg, app=app_launcher.app)
env.reset()
print("Isaac Lab仿真环境启动成功!")`
- 若代码无报错,且能正常启动仿真环境,说明Isaac Lab预装成功;若需使用Isaac Lab Arena任务,可参考阿里云预置的Notebook最佳实践(gallery.pai-ml.com/#/preview/d...),直接调用预置数据集和模型资源。
- 在Notebook中新建代码单元格,输入以下代码,运行验证Isaac Lab是否正常导入:
3.4 环境使用与后续操作
-
开发操作:在DSW环境中,可直接编写代码、运行强化学习训练、调试Isaac Lab仿真任务,文件可保存至本地(实例系统盘)或挂载的OSS存储(推荐)。
-
实例管理(重要,避免不必要扣费):
-
停止实例:不使用时,在实例列表页点击"操作"→"停止",停止后不再计费,再次使用时点击"启动"即可(免费云盘数据保留15天)。
-
删除实例:无需长期使用时,点击"操作"→"删除",删除后实例及系统盘数据将被清空,挂载的OSS数据不受影响。
-
-
数据集使用:可通过阿里云OSS下载Isaac Lab相关数据集(如小规模测试数据、示教数据),具体路径可参考阿里云官方提供的OSS路径,使用内置的OSS下载函数可实现高速下载。