GR00T N1：全球首个开源人形机器人基座模型！双系统架构解锁通用操作

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🤖 "人形机器人开发者炸锅了！英伟达开源核弹级模型：1个大脑适配所有机器人"

大家好，我是蚝油菜花。当波士顿动力还在秀后空翻时，英伟达已经用AI重新定义人形机器人开发范式！

你是否经历过这些行业之痛：

🦾 不同人形机器人的控制代码要重写80%
🧠 让机器人理解"把咖啡杯放到第三层架子"要标注十万级数据
⏳ 复杂任务规划代码跑起来像树懒开会...

今天重磅解析的 GR00T N1 ，正在引发人形机器人开发革命！这个全球首个开源机器人基础模型，用三大黑科技重构行业规则：

✅ 多模态大脑：语言指令+视觉感知秒级生成动作序列
✅ 双系统架构：视觉语言模型做战略规划，扩散transformer搞战术执行
✅ 数据炼金术：融合真实数据+合成数据+油管视频，训练效率提升10倍

已有开发者用它在Fourier GR-1上实现「隔空取物」，接下来我们将手把手解析如何用开源版本打造你的全能机器人管家！

🚀 快速阅读

GR00T N1 是英伟达推出的全球首个开源人形机器人基础模型。

核心功能：支持多模态输入处理、复杂任务推理与规划、跨机器人形态适应性。
技术原理：基于双系统架构，结合视觉-语言模型和扩散变换器，实现高效任务执行。

GR00T N1 是什么

GR00T N1 是英伟达推出的全球首个开源基础模型，专为通用人形机器人设计。它基于多模态输入（如语言和图像）实现多样化环境中的操作任务。GR00T N1 基于大规模人形机器人数据集训练，结合真实数据、合成数据和互联网视频数据，用后训练适应特定机器人形态、任务和环境。

GR00T N1 基于双系统架构，视觉-语言模型负责推理和规划，扩散变换器则生成精确动作。GR00T N1 在模拟和真实世界测试中表现出色，在复杂多步任务和精准操作中优势明显，为材料处理、包装和检查等应用提供高效解决方案。

GR00T N1 的主要功能

通用操作任务执行：在多样化环境中执行各种操作任务，例如抓取、搬运、双臂协调操作等。
多模态输入处理：同时处理语言指令和视觉图像，机器人根据自然语言指令执行复杂的操作任务。
跨机器人形态适应性：适应不同类型的机器人平台（如 Fourier GR-1 和 1X Neo），实现通用性。
复杂任务推理与规划：执行需要持续上下文理解和多种技能整合的复杂多步任务。
高效数据利用与训练：结合互联网规模数据、合成数据和真实机器人数据进行预训练，显著提升性能和泛化能力，减少对大规模标注数据的依赖。

GR00T N1 的技术原理

双系统架构 ：
- 视觉-语言模型（System 2）：基于 NVIDIA-Eagle 和 SmolLM-1.7B 构建，负责用视觉和语言指令理解环境，进行推理和规划，输出动作计划。
- 扩散变换器（System 1）：作为动作模型，将视觉-语言模型的计划转化为精确的连续动作，控制机器人运动。
数据策略：预训练数据包括互联网视频数据（提供人类动作模式和任务语义）、合成数据（基于 NVIDIA Omniverse 平台生成，补充运动控制信号）和真实机器人数据（遥操作收集，确保模型适应真实环境）。无监督学习从大规模未标注的人类视频数据中提取运动模式，提升机器人学习效率。
模型训练与优化：在大规模数据上进行预训练，学习通用的运动和操作模式。针对特定机器人平台、任务和环境进行微调，进一步提升模型的适应性和性能。在推理阶段，减少扩散步骤等方式优化计算效率，确保实时性。

如何运行 GR00T N1

1. 安装指南

克隆仓库并创建 Conda 环境：

sh 复制代码

git clone https://github.com/NVIDIA/Isaac-GR00T
cd Isaac-GR00T
conda create -n gr00t python=3.10
conda activate gr00t
pip install --upgrade setuptools
pip install -e .
pip install --no-build-isolation flash-attn==2.7.1.post4

2. 数据格式与加载

数据需按照 LeRobot 兼容格式组织，具体结构如下：

kotlin 复制代码

.
├─meta 
│ ├─episodes.jsonl
│ ├─modality.json
│ ├─info.json
│ └─tasks.jsonl
├─videos
│ └─chunk-000
│   └─observation.images.ego_view
│     └─episode_000001.mp4
│     └─episode_000000.mp4
└─data
  └─chunk-000
    ├─episode_000001.parquet
    └─episode_000000.parquet

3. 推理

加载预训练模型并运行推理：

python 复制代码

from gr00t.model.policy import Gr00tPolicy
from gr00t.data.embodiment_tags import EmbodimentTag

policy = Gr00tPolicy(
    model_path="nvidia/GR00T-N1-2B",
    modality_config=modality_config,
    modality_transform=transforms,
    embodiment_tag=EmbodimentTag.GR1,
    device="cuda"
)

action_chunk = policy.get_action(dataset[0])

4. 微调

运行微调脚本：

bash 复制代码

python scripts/gr00t_finetune.py --dataset-path ./demo_data/robot_sim.PickNPlace --num-gpus 1

资源

项目主页 ：developer.nvidia.com/isaac/gr00t
GitHub 仓库 ：github.com/NVIDIA/Isaa...

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦