智源&悉尼大学等出品！RoboGhost：文本到动作控制，幽灵般无形驱动人形机器人

本文的主要作者来自悉尼大学、哈尔滨工业大学、香港科技大学、上海交通大学和北京智源人工智能研究院。

本文的第一作者为即将入学悉尼大学的博士生李哲，主要研究方向为具身智能和3D数字人。

本文的共一作者兼项目负责人为北京智源人工智能研究院研究员迟程。

本文的通讯作者为北京大学计算机学院研究员、助理教授仉尚航和悉尼大学副教授徐畅。
原文链接：智源&悉尼大学等出品！RoboGhost：文本到动作控制，幽灵般无形驱动人形机器人

领域研究痛点：多阶段流程带来的信息损失

在虚拟世界中，自然语言可以轻松驱动一个3D数字人完成人们所描述的动作，于是人们将目光转向于现实，从3D虚拟数字人转向人形机器人。然而，自然语言虽为人形机器人提供了天然交互接口，但现有基于语言引导的人形机器人运动流程仍显臃肿且不可靠。

具体地，这类流程通常需经历三重环节：先利用动作生成模型生成动作潜表示并解码出人体运动，再将其重定向适配机器人形态，最后输入到策略中输出真实世界中的动作并通过基于物理的控制器进行轨迹跟踪。

然而，这种多阶段处理机制易导致误差累积、产生高延迟，并造成语义与控制之间的弱耦合。这些缺陷迫切要求我们建立一条从语言到动作的更直接路径。

核心突破：RoboGhost 如幽灵般地无形驱动

为了攻克这些难题，团队提出了Retargeting-free Humanoid Control via Motion Latent Guidance，又名RoboGhost，一个无需重定向的创新方案能够直接将人形机器人策略建立在语言驱动的运动潜在表征之上。团队将文本驱动的人形机器人运动看作一个生成任务，而不是简单地从本体信息以及目标动作开始的映射。

通过绕开显式的运动解码与重定向流程，RoboGhost使基于扩散模型的策略能够直接从噪声中解算出可执行动作，在保持语义完整性的同时，支持快速响应控制。连续自回归的运动生成器进一步确保了长时序运动的一致性，同时在稳定性与多样性之间取得平衡，最终生成能够精确驱动仿人行为的丰富潜在表征。

论文链接：https://arxiv.org/pdf/2510.14952

论文标题：From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance

项目主页：https://gentlefress.github.io/roboghost-proj/

技术贡献：从动作生成到策略架构

动作生成框架：采用了混合Transformer-扩散模型的连续自回归架构，并采用LaMP作为文本编码器。该设计将长时序连贯性与随机稳定性相统一，从而生成富有表现力的运动潜在表征，并实现语言与运动间的精准对齐；
基于扩散模型的策略框架：提出了基于扩散模型的人形机器人策略，该策略以运动潜在表征为条件，能够直接从噪声中解算出可执行动作，并通过DDIM加速采样技术实现流畅多样、物理合理的运动表现；
实验证明的优势：通过大量实验验证 RoboGhost在提高策略的追踪性能同时，也大幅度降低了整个部署流程的时间成本。

核心方法：从映射问题到生成问题

团队设计了一个两阶段训练过程：

第一阶段：动作生成：采用连续自回归架构训练动作生成器，并为第二阶段学生策略提供motion latent作为条件；

第二阶段：策略训练：分为教师策略（RL）和学生策略（DAgger）。其中教师策略采用Mixture-of-experts（MoE）架构提高策略的泛化性；学生策略采用扩散模型架构，将第一阶段的预训练动作生成器的motion latent作为条件来引导运动的降噪过程。

在教师策略的训练中，为了提高模型的泛化性以及掌握更具挑战性和更长的运动序列，团队提出了因果自适应采样方法，将动作序列划分为 K 个等长时间区间，每个区间的采样概率根据经验性失败统计数据进行动态调整。假设某一个env在第i个时间区间被done掉，则将提高前s个时间区间的采样概率。其中，离第i个区间越近，提高的概率越大。

推理阶段完全无需重定向且由潜变量驱动。在推理过程中，文本描述首先输入运动生成器，获得潜运动表征。其绕过了将该潜变量解码为显式运动序列的步骤，从而消除了对机器人进行运动重定向的需求。通过对学生策略采样随机噪声作为输入，并通过 AdaLN 将运动潜变量、本体感知状态和历史观测作为条件注入扩散模型中，生成可直接在物理机器人上可执行的动作。这一流线型流程不仅降低了复杂度，更有效缓解了因生成器能力有限导致的运动生成质量低下、重定向引发误差以及动作多样性不足等问题。