智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人

本文的主要作者来自悉尼大学、哈尔滨工业大学、香港科技大学、上海交通大学和北京智源人工智能研究院。

本文的第一作者为即将入学悉尼大学的博士生李哲,主要研究方向为具身智能和3D数字人。

本文的共一作者兼项目负责人为北京智源人工智能研究院研究员迟程。

本文的通讯作者为北京大学计算机学院研究员、助理教授仉尚航和悉尼大学副教授徐畅。
原文链接:智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人

领域研究痛点:多阶段流程带来的信息损失

在虚拟世界中,自然语言可以轻松驱动一个3D数字人完成人们所描述的动作,于是人们将目光转向于现实,从3D虚拟数字人转向人形机器人。然而,自然语言虽为人形机器人提供了天然交互接口,但现有基于语言引导的人形机器人运动流程仍显臃肿且不可靠。

具体地,这类流程通常需经历三重环节:先利用动作生成模型生成动作潜表示并解码出人体运动,再将其重定向适配机器人形态,最后输入到策略中输出真实世界中的动作并通过基于物理的控制器进行轨迹跟踪。

然而,这种多阶段处理机制易导致误差累积、产生高延迟,并造成语义与控制之间的弱耦合。这些缺陷迫切要求我们建立一条从语言到动作的更直接路径。

核心突破:RoboGhost 如幽灵般地无形驱动

为了攻克这些难题,团队提出了Retargeting-free Humanoid Control via Motion Latent Guidance,又名RoboGhost,一个无需重定向的创新方案能够直接将人形机器人策略建立在语言驱动的运动潜在表征之上。团队将文本驱动的人形机器人运动看作一个生成任务,而不是简单地从本体信息以及目标动作开始的映射。

通过绕开显式的运动解码与重定向流程,RoboGhost使基于扩散模型的策略能够直接从噪声中解算出可执行动作,在保持语义完整性的同时,支持快速响应控制。连续自回归的运动生成器进一步确保了长时序运动的一致性,同时在稳定性与多样性之间取得平衡,最终生成能够精确驱动仿人行为的丰富潜在表征。

技术贡献:从动作生成到策略架构

  1. 动作生成框架:采用了混合Transformer-扩散模型的连续自回归架构,并采用LaMP作为文本编码器。该设计将长时序连贯性与随机稳定性相统一,从而生成富有表现力的运动潜在表征,并实现语言与运动间的精准对齐;
  2. 基于扩散模型的策略框架:提出了基于扩散模型的人形机器人策略,该策略以运动潜在表征为条件,能够直接从噪声中解算出可执行动作,并通过DDIM加速采样技术实现流畅多样、物理合理的运动表现;
  3. 实验证明的优势:通过大量实验验证 RoboGhost在提高策略的追踪性能同时,也大幅度降低了整个部署流程的时间成本。

核心方法:从映射问题到生成问题

团队设计了一个两阶段训练过程:

第一阶段:动作生成:采用连续自回归架构训练动作生成器,并为第二阶段学生策略提供motion latent作为条件;

第二阶段:策略训练:分为教师策略(RL)和学生策略(DAgger)。其中教师策略采用Mixture-of-experts(MoE)架构提高策略的泛化性;学生策略采用扩散模型架构,将第一阶段的预训练动作生成器的motion latent作为条件来引导运动的降噪过程。

在教师策略的训练中,为了提高模型的泛化性以及掌握更具挑战性和更长的运动序列,团队提出了因果自适应采样方法,将动作序列划分为 K 个等长时间区间,每个区间的采样概率根据经验性失败统计数据进行动态调整。 假设某一个env在第i个时间区间被done掉,则将提高前s个时间区间的采样概率。其中,离第i个区间越近,提高的概率越大。

推理阶段完全无需重定向且由潜变量驱动。在推理过程中,文本描述首先输入运动生成器,获得潜运动表征。其绕过了将该潜变量解码为显式运动序列的步骤,从而消除了对机器人进行运动重定向的需求。通过对学生策略采样随机噪声作为输入,并通过 AdaLN 将运动潜变量、本体感知状态和历史观测作为条件注入扩散模型中,生成可直接在物理机器人上可执行的动作。这一流线型流程不仅降低了复杂度,更有效缓解了因生成器能力有限导致的运动生成质量低下、重定向引发误差以及动作多样性不足等问题。

结果说话:增产降耗

该工作采用MotionUnion数据集的HumanML子集和Kungfu子集进行动作生成器的训练,并将其重定向到Unitree G1机器人上进行策略训练。测试阶段依然在这两个数据子集上进行。

团队在动作生成质量、成功率、部署时间、追踪误差等方面上进行了全面实验,结果如图(其中Baseline表示以多层感知机为架构的显式驱动策略):

为了验证策略的泛化性,团队在未见过的 MotionUnion子集(fitness、perform、100style、haa)中随机采样 10 个动作对两种策略进行测试。尽管运动生成器未在这些子集上训练,导致生成的潜变量并非最优,但基于扩散的策略仍然比多层感知机策略实现了显著更优的跟踪效果和鲁棒性。

实验结果表明,RoboGhost显著提高了动作的成功率,策略的泛化性并且大大降低了部署过程的时间消耗。此外,团队还展示了动作生成的结果,以及在仿真环境和现实环境中的效果图:

更多技术细节和demo视频欢迎查看论文和项目主页。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

相关推荐
weixin_402939991 小时前
【机器人】机器人方向的顶会--自用
人工智能·机器学习·机器人
飞睿科技1 小时前
解析ESP-SparkBot开源大模型AI桌面机器人的ESP32-S3核心方案
人工智能·嵌入式硬件·物联网·机器人·esp32·乐鑫科技·ai交互
仰科网关2 小时前
使用协议转换网关实现机器人EthernetIP转成西门子Profinet的项目案例
机器人·profinet·ethernetip·vfbox·协议转换·规约转换器
BBTSOH159015160442 小时前
VR每日热点简报2026.1.22
人工智能·机器人·虚拟现实·遥操作
码农三叔11 小时前
(2-1)人形机器人的总体架构与系统工程:全身架构与模块化设计理念
架构·机器人
Deepoch12 小时前
Deepoc数学大模型:发动机行业的算法引擎
人工智能·算法·机器人·发动机·deepoc·发动机行业
不做无法实现的梦~12 小时前
使用ros2来跑通mid360的驱动包
linux·嵌入式硬件·机器人·自动驾驶
Hcoco_me13 小时前
大模型面试题84:是否了解 OpenAI 提出的Clip,它和SigLip有什么区别?为什么SigLip效果更好?
人工智能·算法·机器学习·chatgpt·机器人
Deepoch16 小时前
Deepoc智能系统:居家服务机器人的智慧核心
科技·机器人·生活·开发板·具身模型·deepoc·居家机器人
xwz小王子17 小时前
Science Advances 一种仿壁虎和章鱼的爬壁机器人
机器人·爬壁