GR00T N1：通才人形机器人的开放基础模型（上）

25年3月来自Nvidia的论文"GR00T N1: An Open Foundation Model for Generalist Humanoid Robots"。

通用机器人需要多功能的身体和聪明的头脑。人形机器人的最新进展显示出作为在人类世界中构建通才自主性硬件平台的巨大潜力。在大量多样化数据源上训练的机器人基础模型，对于使机器人能够推理新情况、稳健地处理现实世界的变化以及快速学习新任务至关重要。为此，Nvidia推出 GR00T N1，一种人形机器人的开放式基础模型。GR00T N1 是一种具有双系统架构的视觉-语言-动作 (VLA) 模型。视觉语言模块（系统 2）通过视觉和语言指令解释环境。后续的扩散 Transformer 模块（系统 1）实时生成流运动动作。这两个模块紧密耦合并进行端到端联合训练。用真实机器人轨迹、人类视频和合成生成数据集的异构混合来训练 GR00T N1。该通才机器人模型 GR00T N1 在多个机器人实例的标准模拟基准测试中超越最先进的模仿学习基线。此外，该模型部署在 Fourier GR-1 人形机器人上，用于语言调节的双手操作任务，实现强大的性能和高数据效率。

创造自主机器人来执行人类世界的日常任务，一直是一个令人着迷的目标，同时也是一项重大的技术任务。机器人硬件、人工智能和加速计算方面的最新进展，为开发通用机器人自主性奠定了基础。为了向人类级别的物理智能迈进，采用集成三个关键要素的全栈解决方案：硬件、模型和数据。首先，机器人是具身的物理智体，其硬件决定了其能力范围。由于人形机器人具有类似人类的体格和多功能性，因此它成为构建机器人智能引人注目的形式因素。其次，现实世界的多样性和多变性要求机器人在开放式目标上运作并执行广泛的任务。要实现这一点，需要一个具有足够表现力并能够处理各种任务的通才机器人模型。第三，大规模获取现实世界的人形机器人数据成本高昂且耗时。需要一种有效的数据策略来训练大规模机器人模型。

近年来，基础模型在理解和生成视觉和文本数据方面取得重大突破。它们证明在网络规模数据上训练通才模型的有效性，以实现强大的泛化和快速适应下游任务。基础模型在人工智能邻近领域的成功描绘了一条有希望的路线图，为通才机器人构建智能的"骨干"，赋予它们一套核心能力，使它们能够在现实世界中快速学习和适应。然而，与文字和像素的数字领域不同，不存在用于大规模预训练的人形机器人数据集互联网。任何单个人形机器人硬件可用的数据数量级都太小了。机器人学习社区 (Open X-Embodiment Collaboration et al., 2024) 的最新努力探索跨具身学习，通过汇集来自许多不同机器人的训练数据来扩大数据集。然而，机器人具身、传感器、执行器自由度、控制模式和其他因素的巨大差异，导致"数据孤岛"的形成，而不是训练真正的通才模型所需的连贯互联网规模数据集。

为了缓解"数据孤岛"问题，本文将 VLA 训练语料库构建为数据金字塔，如图所示。不会将训练数据集视为同质池，而是按规模组织异构源：大量网络数据和人类视频构成金字塔的底层；使用物理模拟生成和/或通过现成的神经模型增强的合成数据构成中间层，在物理机器人硬件上收集的真实世界数据构成顶层。金字塔的下层提供广泛的视觉和行为先验，而上层确保落地于具体、真实的机器人执行。

GR00T N1 是一种针对人形机器人的视觉-语言-动作 (VLA) 模型，该模型在各种数据源上进行训练。该模型包含一个对语言和图像输入进行编码的视觉语言主干，以及一个基于 DiT 的流匹配策略，用于输出高频动作。用 NVIDIA Eagle-2 VLM（Li，2025）作为视觉语言主干。具体来说，公开发布的 GR00T-N1-2B 模型总共有 22 亿个参数，其中 13.4 亿个参数在 VLM 中。使用 bf16 在 L40 GPU 上对 16 个动作进行采样的推理时间为 63.9 毫秒。下图提供模型设计的高级概述。

模型架构

GR00T N1 模型的架构如图所示。GR00T N1 使用流匹配 (Lipman) 来学习动作生成。扩散 Transformer (DiT) 处理机器人的本体感受状态和动作，然后将其与来自 Eagle-2 VLM 主干的图像和文本 tokens 交叉处理，以输出去噪后的运动动作。

状态和动作编码器

为了处理不同机器人具身中不同维度的状态和动作，每个具身使用一个 MLP 将它们投影到共享的嵌入维度作为 DiT 的输入。与 Black (2024) 一样，动作编码器 MLP 还将扩散时间步长与噪声动作向量一起编码。

用动作流匹配，通过迭代去噪对动作进行采样。除了机器人本体感受状态、图像 token 和文本 token 的编码外，该模型还将噪声动作作为输入。动作以块的形式进行处理，就像 Zhao (2023) 中那样，这意味着在任何给定时间 𝑡，模型使用 𝐴_𝑡 = [𝑎_𝑡, 𝑎_𝑡+1, . . . , 𝑎_𝑡+𝐻−1]，其中包含时间步长 𝑡 到 𝑡 + 𝐻 − 1 的动作向量。在实现中设置 𝐻 = 16。

视觉语言模块（系统 2）

对于编码视觉和语言输入，GR00T N1 使用在互联网规模数据上预训练的 Eagle-2（Li，2025）视觉语言模型 (VLM)。 Eagle-2 经过 SmolLM2（Allal，2025）LLM 和 SigLIP-2（Tschannen，2025）图像编码器的微调。图像以 224 × 224 的分辨率编码，然后进行像素混洗（Shi，2016），从而每帧产生 64 个图像 token 嵌入。然后，这些嵌入与文本一起由 Eagle-2 VLM 的 LLM 组件进一步编码。LLM 和图像编码器按照 Li（2025）的通用方法在广泛的视觉语言任务上进行对齐。

在策略训练期间，任务的文本描述以及（可能多个）图像以视觉语言训练期间使用的聊天格式传递给 VLM。然后，从 LLM 中提取形状（批量大小 × 序列长度 × 隐藏维度）的视觉语言特征。使用中间层而不是最终层 LLM 嵌入可以提高推理速度和下游策略成功率。对于 GR00T-N1-2B，使用第 12 层的表示。

扩散 Transformer 模块（系统 1）

对于建模动作，GR00T N1 使用 DiT 的变型（Peebles & Xie，2023），这是一个通过自适应层归一化进行去噪步骤调节的 transformer，表示为 𝑉_𝜃。如上图所示，𝑉_𝜃 由交替的交叉注意和自注意块组成，类似于 Flamingo（Alayrac，2022）和 VIMA（Jiang，2023）。自注意模块对噪声动作 tokens 嵌入 𝐴^𝜏_𝑡 和状态嵌入 𝑞_𝑡 进行操作，而交叉注意模块允许对 VLM 输出的视觉语言 tokens 嵌入 𝜑_𝑡 进行条件调节。在最后的 DiT 模块之后，将另一个 MLP（具身-特定的动作解码器）应用于最终的 𝐻 个 tokens 以预测动作。

给定一个真值动作块 𝐴_𝑡、一个流匹配时间步长 𝜏 ∈ [0,1] 和采样噪声 𝜖 ∼ 𝒩(0,I)，噪声动作块 𝐴^𝜏_𝑡 计算为 𝐴^𝜏_𝑡 = 𝜏𝐴_𝑡 + (1−𝜏)𝜖。模型预测 𝑉_𝜃(𝜑_𝑡, 𝐴^𝜏_𝑡, 𝑞_𝑡) 旨在通过最小化以下损失来近似去噪矢量场 𝜖 − 𝐴_𝑡：

在推理过程中，使用 𝐾 步去噪生成动作块。首先，随机抽样 𝐴^0_𝑡 ∼ 𝒩(0, I)，然后使用前向欧拉积分迭代生成动作块，更新如下（K = 4）：

训练数据生成

为了训练 GR00T N1，用一组不同的数据源和目标来构建数据金字塔。首先从开放数据集中获取不同的以人类自我为中心的视频数据，这些数据构成基础，以及 VLM 预训练中使用的网络数据。接下来，用预训练的视频生成模型生成合成神经轨迹。通过这种方式，将内部收集的遥操作轨迹（数据金字塔的"峰值"）从 88 小时增加到 827 小时，使用具有新语言指令的多样反事实机器人轨迹（参见下图的示例）。还生成不同的模拟轨迹，这也扩展了数据金字塔的中间部分。

潜动作

对于以人类自我为中心的视频和神经轨迹，没有任何可直接用于训练 GR00T N1 的动作。对于这些数据，通过训练 VQ-VAE 模型来生成潜动作，从视频的连续图像帧中提取特征 (Ye et al., 2025)。编码器采用具有固定窗口大小 𝐻 的视频当前帧 𝑥_𝑡 和未来帧 𝑥_𝑡+𝐻，并输出潜动作 𝑧_𝑡。解码器经过训练采取潜动作 𝑧_𝑡 和 𝑥_𝑡 并重建 𝑥_𝑡+𝐻。该模型使用一个 VQ-VAE 目标（objective）进行训练，其中来自编码器的连续嵌入被映射到来自码本的最接近嵌入。训练结束后，采用编码器并将其用作一个逆动力学模型；给定一个 𝑥_𝑡 和 𝑥_𝑡+𝐻 对，提取连续预-量化嵌入并将其用作预训练期间的潜动作标签，具有相同的流匹配损失，但将其视为不同的"通用动作模型的潜动作预训练（LAPA）"具身。

在所有异构数据上一起训练 VQ-VAE 模型，能够统一所有数据以共享相同学习的潜动作空间，从而有可能改善跨具身泛化。如图显示来自 8 个不同具身的 𝑥_𝑡 和 𝑥_𝑡+𝐻 对，包括机器人和人类具身，所有这些都是从类似的潜动作中检索的；第一个潜动作显示所有具身都将右臂向左移动，第二个潜动作显示将右臂向右移动。

神经轨迹

机器人数据随人类劳动线性规模化，因为它通常需要人类操作员遥操作机器人来产生每个轨迹。最近，视频生成模型已显示出高质量可控视频生成的巨大潜力（Brooks，2024；Lin，2024；Ren，2025；Wan Team，2025；Xiang，2024；Yang，2024），这为在机器人领域构建世界模型铺平道路。为了利用这些模型，根据内部收集的所有 88 小时遥操作数据，微调图像-到-视频生成模型（Agarwal，2025；Wan Team，2025；Yang，2024），并根据现有的初始帧和语言提示生成 827 小时的视频数据，将其增加约 10 倍。这样就可以生成训练数据，捕捉现实世界中更多反事实场景，而无需实际收集每种情况的遥操作数据。

为了增加神经轨迹的多样性，首先使用商业级多模态 LLM 来检测给定初始帧的物体，并生成更多"从 {位置 A} 到 {位置 B} 拾取 {物体}"的可能组合，同时指示模型仅考虑物理上可行的组合。还将后处理机制（包括过滤和重新打字幕）应用于生成的视频。为此，还使用商业级多模态 LLM 作为判断器，并输入下采样的 8 帧以过滤掉不完全遵循语言指令的神经轨迹。然后为过滤掉的视频添加字幕。

模拟轨迹

由于同时控制双臂和灵巧手是一项挑战，规模化人形机器人的真实世界数据收集成本非常高。最近的研究（Jiang，2024；Mandlekar，2023；Wang，2024）表明，在模拟中生成训练数据是一种切实可行的替代方案。使用 DexMimicGen（Jiang，2024）来合成大规模机器人操作轨迹。

从一小组人类演示开始，DexMimicGen 在模拟中应用演示转换和重放来自动扩展数据集。每个任务分解为一系列以对象为中心的子任务。最初的人类演示被分割成更小的操作序列，每个序列对应一个涉及单个目标的子任务。然后，通过将这些部分与物体的位置对齐，使它们适应新环境，从而保留机器人末端执行器和物体之间的相对姿势。为了确保顺利执行，系统会在机器人的当前状态和转换段之间插入运动。然后，机器人一步一步地遵循整个序列，最后验证任务是否成功。只有成功的演示才会被保留，以确保高质量的数据。使用 DexMimicGen，将一组有限的人类演示扩展到大规模人形机器人操作数据集。考虑到训练前和训练后的数据集，在短短 11 小时内生成 780,000 条模拟轨迹，相当于 6,500 小时或连续 9 个月的人类演示数据。这些模拟数据以最小的人力成本极大地补充真实机器人数据。

训练细节

预训练

在预训练阶段，GR00T N1 通过流匹配损失，即公式（1），在各种具身和数据源上进行训练，包括各种真实和合成机器人数据集以及人类运动数据。

对于人类视频，在没有真实动作的情况下，提取学习的潜动作并将其用作流匹配目标。对于机器人数据集（例如 GR-1 人形机器人数据或 Open X-Embodiment 数据），同时使用真实机器人动作和学习的潜动作作为流匹配目标。对于用于增强机器人数据集的神经轨迹，同时使用潜动作以及在真实机器人数据上训练的逆动力学模型预测动作。

后训练

在后训练阶段，根据每个具身对应的数据集，微调预训练模型。与预训练一样，保持 VL 主干的语言组件冻结，并微调模型的其余部分。

使用神经轨迹进行后训练

为了克服后训练期间数据稀缺的挑战，探索通过生成神经轨迹来增强每个下游任务的数据，对于以多个视图为条件的下游任务，微调视频模型以在网格中生成多个子图像。对于模拟任务，从随机初始化的环境中收集不同的初始帧。对于真实的机器人任务，手动随机初始化物体姿势并记录机器人的初始观察结果。也可以使用 img2img 扩散自动创建新的初始帧。另外还展示 (1) 多轮视频生成示例，用于生成由原子任务组成的长范围轨迹，和 (2) 液体和铰接体的神经轨迹示例，这些轨迹极难模拟。

对于带有神经轨迹的后训练流水线，限制自己仅在模拟任务的人工收集轨迹上对视频生成模型进行微调，并且仅使用来自真实世界基准的 10% 数据进行后训练，以匹配只能访问有限数量遥操作数据的现实场景。由于生成的视频没有动作标签，用潜在或逆动力学模型 (IDM) 标记动作（Baker，2022）并训练策略模型以将这些伪动作视为不同具身的动作标签。在低层数据状态场景中，限制仅在低层数据上训练 IDM 模型，以促进现实场景。在后训练，以 1:1的采用率将策略与真实世界轨迹和神经轨迹一起训练。

训练基础设施

在通过 NVIDIA OSMO（NVIDIA，2025）管理的集群上训练 GR00T N1，这是一个用于扩展复杂机器人工作负载的编排平台。训练集群配备 H100 NVIDIA GPU，通过 NVIDIA Quantum-2 InfiniBand 以胖-树拓扑连接。通过基于 Ray 分布式计算库（Moritz，2018）构建的自定义库，促进容错多节点训练和数据提取。为单个模型使用多达 1024 个 GPU。 GR00T-N1-2B 预训练的耗时，约 50,000 H100 GPU 小时。

在单个 A6000 GPU 环境下测试计算约束微调。如果仅调整适配器层（动作和状态编码器 + 动作解码器）和 DiT，则可以使用最大 200 的批处理大小。调整视觉编码器时，可以使用最大 16 的批处理大小。