PAI Physical AI Notebook详解8：Isaac Lab Arena 全身机器人机动+操控工作流

在之前的 PAI Physical AI 系列 Notebook中，我们已经介绍了基于 Isaac Lab 的强化学习训练、Newton 新物理引擎与Rerun轻量可视化等核心能力。然而，在实际的具身智能研发中，如何从仿真环境搭建到数据生成、策略训练再到闭环评估，完成一条完整的端到端工作流，仍是开发者面临的核心挑战。尤其是在复杂操作任务（如全身机动+操控）中，场景配置、数据扩增与策略后训练的衔接尤为关键。

Isaac Lab Arena 是基于 Isaac Lab 开发的任务集成系统，将完整任务划分为场景+具身智能体+任务物体的模块化系统，大幅扩增任务多样性并简化单个任务的创建。结合 NVIDIA GR00T N1.5 策略后训练能力，开发者可以在仿真环境中完成从示教数据扩增到策略微调再到闭环评估的全链路闭环。

本Notebook以 G1 箱体抓取与放置 任务为例，展示 Isaac Lab Arena 完整链路：

使用 Isaac Lab Arena 配置环境并通过回放 Demo 验证
使用 Isaac Lab Arena 配置 Mimic 环境进行演示扩增
使用 Isaac Lab Arena 进行 GR00T-N1.5 策略后训练
在 Isaac Sim 中进行策略闭环评估

在 PAI 的 Notebook Gallery 中，我们已经预置了这套的最佳实践：

gallery.pai-ml.com/#/preview/d...

1. 启动 DSW 与资源准备

通过 Notebook Gallery 启动 DSW，使用以下预编译镜像与实例规格：

类型

值

镜像（专网）

dsw-registry-vpc.${regionId}.cr.aliyuncs.com/pai-training-algorithm/isaac-sim:isaaclab-arena-gr00t-vnc-v3-20260307

镜像（公网）

dsw-registry.${regionId}.cr.aliyuncs.com/pai-training-algorithm/isaac-sim:isaaclab-arena-gr00t-vnc-v3-20260307

实例规格

ecs.gn8is.2xlarge（单张 48G 显存 L20 GPU，8核 CPU / 128G 内存）

需配置专有网络（VPC）用于局域网/公网访问及挂载外部存储，挂载到 /mnt/data

数据集与模型资源

资源

OSS 路径

小规模测试数据

oss://pai-vision-data-${oss-region}/aigc-data/isaac/nb13/datasets/isaaclab_arena/locomanipulation_tutorial/arena_g1_loco_manipulation_dataset_generated_small.hdf5

带标注人类示教数据

...arena_g1_loco_manipulation_dataset_annotated.hdf5

Mimic扩增后数据 (~21GB)

...arena_g1_loco_manipulation_dataset_generated.hdf5

已转换LeRobot数据

...arena_g1_loco_manipulation_dataset_generated.zip

GR00T-N1.5后训练模型

oss://pai-vision-data-${oss-region}/aigc-data/isaac/nb13/models/isaaclab_arena/locomanipulation_tutorial/checkpoint-20000.zip

区域映射

${regionId}

${oss-region}

cn-beijing

cn-shanghai

cn-hangzhou

hz2

cn-shenzhen

ap-southeast-1

ap-southeast

cn-wulanchabu

wlcb

内网endpoint : oss-${regionId}-internal.aliyuncs.com
外网endpoint : oss-${regionId}.aliyuncs.com

2. 环境验证与基础配置

在 DSW 启动完成后，首先执行 Notebook 中的环境验证 Cell，确认运行状态与路径配置。

运行状态检查

确认 Isaac Lab Arena 环境已正确加载，检查关键依赖（Isaac Sim、Isaac Lab Arena、Mimic、GR00T）的版本与可用性。

路径与环境变量配置

ini 复制代码

DATASET_DIR=/datasets/isaaclab_arena/locomanipulation_tutorial
MODELS_DIR=/models/isaaclab_arena/locomanipulation_tutorial

OSS 下载工具

Notebook 中提供了便捷的 OSS 下载函数，自动根据 DSW 实例所在区域选择内网 endpoint 进行高速下载：

csharp 复制代码

def download_from_oss(url, filename, save_dir):
    url_prefix = {
        "cn-shanghai": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com",
        "cn-hangzhou": "http://pai-vision-data-hz2.oss-cn-hangzhou-internal.aliyuncs.com",
        "cn-shenzhen": "http://pai-vision-data-sz.oss-cn-shenzhen-internal.aliyuncs.com",
        "cn-beijing": "http://pai-vision-data-bj.oss-cn-beijing-internal.aliyuncs.com",
        "ap-southeast-1": "http://pai-vision-data-ap-southeast.oss-ap-southeast-1-internal.aliyuncs.com",
        "cn-wulanchabu": "http://pai-vision-data-wlcb.oss-cn-wulanchabu-internal.aliyuncs.com"
    }
    dsw_region = os.environ.get("dsw_region")
    prefix = url_prefix.get(dsw_region, "http://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com")
    full_url = os.path.join(prefix, url, quote(filename))

VNC 可视化桌面（可选）

如需观察仿真过程的 GUI 画面，可通过 VNC 连接：

镜像中 TurboVNC 默认密码：123456
本地 SSH 端口转发：ssh -L 5900:localhost:5900
VNC 客户端连接：localhost:5900
可视化运行 ：在 VNC 桌面 terminal 中去掉 --headless 参数执行

3. 环境准备与回放验证

下载测试数据集

首先下载小规模测试数据集，用于验证仿真环境是否正确配置：

erlang 复制代码

download_from_oss(
    "aigc-data/isaac/nb13/datasets/isaaclab_arena/locomanipulation_tutorial",
    "arena_g1_loco_manipulation_dataset_generated_small.hdf5",
    DATASET_DIR
)

回放 Demo 验证环境

使用 Isaac Lab Arena 回放任务 galileo_g1_locomanip_pick_and_place，验证环境配置是否正确。成功标准：仿真正常启动并跑完指定步数；相机与抓取/放置行为符合预期。

4. 数据生成

下载带标注人类示教数据

下载带标注的人类示教数据（HDF5格式），作为 Mimic 数据扩增的种子数据：

erlang 复制代码

download_from_oss(
    "aigc-data/isaac/nb13/datasets/isaaclab_arena/locomanipulation_tutorial",
    "arena_g1_loco_manipulation_dataset_annotated.hdf5",
    DATASET_DIR
)

使用 Mimic 进行数据扩增

基于人类示教数据，使用 Isaac Lab Mimic 进行大规模演示数据集生成。Mimic 能够在保持任务语义一致的前提下，通过随机化场景配置（物体位置、光照、纹理等）快速扩增数据规模。

示例代码：

bash 复制代码

# 使用 Isaac Lab Mimic 生成数据集
# 生成 100 条演示数据，约需 1 小时
!/isaac-sim/python.sh isaaclab_arena/scripts/generate_dataset.py \
  --headless \
  --enable_cameras \
  --mimic \
  --input_file $DATASET_DIR/arena_g1_loco_manipulation_dataset_annotated.hdf5 \
  --output_file $DATASET_DIR/arena_g1_loco_manipulation_dataset_generated.hdf5 \
  --generation_num_trials 100 \
  --device cpu \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_pink

参数说明：

--mimic：启用 Mimic 数据扩增模式
--input_file：输入的人类示教数据文件
--output_file：输出的扩增数据文件
--generation_num_trials 100：生成 100 条演示轨迹
--device cpu：使用 CPU 进行仿真

Mimic 扩增后的数据集约 21GB，可根据实际需求调整扩增参数

（可选）回放生成数据

可对 Mimic 生成的数据进行回放验证，确保扩增数据的正确性与多样性。

示例代码：

css 复制代码

# 回放生成后的数据集进行验证
!/isaac-sim/python.sh isaaclab_arena/scripts/replay_demos.py --headless \
  --device cpu \
  --enable_cameras \
  --dataset_file $DATASET_DIR/arena_g1_loco_manipulation_dataset_generated.hdf5 \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_pink

5. 策略后训练（GR00T-N1.5）

数据集快捷下载（可选）

为快速体验完整流程，可直接下载预生成数据跳过前序步骤：

预生成 HDF5：完整的 Mimic 扩增数据
已转换 LeRobot 数据：跳过 HDF5→LeRobot 转换步骤

HDF5 转 LeRobot 格式

使用 Isaac Lab Arena 自带脚本，将 HDF5 格式的演示数据转换为 GR00T 训练所需的 LeRobot 格式：

bash 复制代码

python scripts/convert_hdf5_to_lerobot.py \
    --input_path ${DATASET_DIR}/arena_g1_loco_manipulation_dataset_generated.hdf5 \
    --output_path ${DATASET_DIR}/lerobot_data

GR00T N1.5 微调训练

启动 GR00T N1.5 模型的微调训练，基于 LeRobot 格式的扩增数据进行策略后训练：

当前参数用于快速验证，正式实验需调整迭代步数、保存间隔与数据加载并发

训练完成后，checkpoint 将保存至 ${MODELS_DIR} 目录下。

6. 闭环策略推理与评估

预训练模型下载（可选）

如需跳过训练步骤，可直接下载预训练 checkpoint（checkpoint-20000.zip）：

erlang 复制代码

download_from_oss(
    "aigc-data/isaac/nb13/models/isaaclab_arena/locomanipulation_tutorial",
    "checkpoint-20000.zip",
    MODELS_DIR
)

单环境评估（GUI）

使用配置文件 isaaclab_arena_gr00t/g1_locomanip_gr00t_closedloop_config.yaml，在单个仿真环境中进行闭环策略推理与可视化评估。可通过 VNC 观察 G1 机器人执行箱体搬运放置任务的完整过程。

示例代码：

css 复制代码

# 运行单环境评估
!/isaac-sim/python.sh isaaclab_arena/examples/policy_runner.py --headless \
  --policy_type gr00t_closedloop \
  --policy_config_yaml_path isaaclab_arena_gr00t/g1_locomanip_gr00t_closedloop_config.yaml \
  --num_steps 1200 \
  --enable_cameras \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_joint

参数说明：

--policy_type gr00t_closedloop：使用 GR00T 闭环策略
--num_steps 1200：运行步数
--enable_cameras：启用相机渲染
去掉 --headless 参数可在 VNC 中观察 GUI 画面

并行环境评估（可选）

支持多环境并行评估，提高评估效率与统计显著性。

示例代码：

css 复制代码

# 运行并行环境评估（5 个环境）
!/isaac-sim/python.sh isaaclab_arena/examples/policy_runner.py --headless \
  --policy_type gr00t_closedloop \
  --policy_config_yaml_path isaaclab_arena_gr00t/g1_locomanip_gr00t_closedloop_config.yaml \
  --num_steps 1200 \
  --num_envs 5 \
  --enable_cameras \
  --device cpu \
  --policy_device cuda \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_joint

参数说明：