【论文阅读】Being-H0.5:规模化以人为中心的机器人学习以实现跨具身化泛化

快速了解部分

基础信息（英文）：

1.题目: Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

2.时间: 2026.01

3.机构: BeingBeyond Team

4.3个英文关键词: Vision-Language-Action (VLA), Human-Centric Learning, Cross-Embodiment Generalization

1句话通俗总结本文干了什么事情

本文提出了一种名为 Being-H0.5 的机器人模型，通过将人类动作作为通用模板，让不同形态的机器人（如机械臂、人形机器人）能共享学习成果，从而实现跨形态的技能泛化和实际部署。

研究痛点：现有研究不足 / 要解决的具体问题

现有视觉-语言-动作（VLA）模型通常是针对特定机器人硬件训练的"单语种"专家，难以在不同形态（如从机械臂换到人形手）的机器人之间迁移；同时，机器人数据稀缺且碎片化，缺乏一种通用的"物理语言"来统一不同机器人的动作空间。

核心方法：关键技术、模型或研究设计（简要）

提出了 UniHand-2.0 数据集和 Being-H0.5 模型。核心是将人类和机器人的动作映射到一个统一的动作空间（Unified Action Space），采用混合流（Mixture of Flow）架构，并引入流形保持门控（MPG）和通用异步分块（UAC）技术以适应不同硬件的延迟和控制差异。

深入了解部分

作者想要表达什么

作者认为人类的交互痕迹可以作为物理交互的通用"母语"。通过以人为中心的学习范式，利用大规模的人类视频数据作为物理先验，可以解决机器人数据稀缺问题，并打破不同机器人形态之间的壁垒，实现通用的具身智能。

相比前人创新在哪里

统一动作空间：不同于以往为每种机器人单独设置动作头，本文将人类手部动作（MANO模型）与机器人控制映射到同一个语义对齐的向量空间。
大规模异构数据：构建了包含3.5万小时数据（含1.6万小时人类视频）的 UniHand-2.0 数据集，覆盖30种机器人形态。
部署稳定性：提出了 MPG 和 UAC 技术，解决了在真实世界中不同机器人硬件延迟和感知漂移导致的控制不稳定问题。

解决方法/算法的通俗解释

想象一个能教所有类型机器人（无论是两只手的、一只手的，还是人形的）的"通用老师"。

通用语言：它把所有机器人的动作和人类的动作都翻译成一种"通用语言"（统一动作空间）。
混合专家：模型内部像一个专家组，有的专家专门负责通用的物理常识（如抓取、移动），有的专家专门负责特定机器人的特殊动作（混合流架构）。
抗干扰：当传感器信号不好或网络有延迟时，它能自动调整，保证机器人动作不卡顿、不乱动（流形保持门控和异步分块）。

解决方法的具体做法

数据构建：收集大规模的人类第一视角视频（Ego4D等），利用算法提取手部姿态；结合30种机器人的操作数据。
模型架构：采用 Mixture-of-Transformers (MoT) 设计，分为视觉语言理解专家和动作生成专家，共享注意力机制。
训练策略 ：
- 统一序列建模：将视觉、文本、状态、动作统一成一个序列进行训练。
- 混合预测：同时预测连续的动作流和离散的动作 token。
后训练与部署：使用 MPG 在感知不确定时回退到可靠先验；使用 UAC 根据硬件延迟动态调整动作生成。

基于前人的哪些方法

Being-H0：本文的前代模型，确立了以人为中心的学习范式。
Flow Matching (流匹配)：用于生成连续动作的扩散模型技术（如 π0 模型）。
Mixture-of-Experts (MoE)：混合专家架构，用于扩展模型容量。
MANO 模型：用于表征人类手部姿态的参数化模型。

实验设置、数据、评估方式、结论

数据：UniHand-2.0，包含 35,000+ 小时数据（16k人类，14k机器人，5k图文），覆盖30种机器人。
实验平台：5种真实机器人（PND Adam-U, Franka+Inspire, Unitree G1, BeingBeyond D1, LeRobot SO-101）和模拟环境（LIBERO, RoboCasa）。
评估方式：任务成功率（Success Rate）。
结论：
- 在 LIBERO 模拟 benchmark 上达到 98.9% 的成功率（SoTA）。
- 在 RoboCasa（24个复杂家务任务）上达到 53.9% 的成功率。
- 实现了跨形态的零样本迁移（Zero-Shot Transfer），即在没有特定机器人数据的情况下，模型也能在新形态机器人上执行任务。

提到的同类工作

Open X-Embodiment (OXE)：大规模机器人数据集集合。
RT-1 / RT-2：Google 的 Robotics Transformer 模型。
π0 (pi0)：一种基于扩散模型的 VLA 方法。
GR00T-N1：Nvidia 提出的具身基础模型。
AgiBot World：另一个大规模机器人操作数据集。

和本文相关性最高的3个文献

Being-h0: vision-language-action pretraining from large-scale human videos (Being-H0 的前作，本文的直接基础)
πo: A vision-language-action model with open-world generalization (主流 VLA 方法，本文对比的重要基准)
Open x-embodiment: Robotic learning datasets and rt-x models (最大的开源机器人数据集，本文数据的重要组成部分和对比对象)

我的

利用人类数据训练了一个VLA。
如何解决数据Gap的：MANO识别手，统一到一个空间里，然后用路由机制，一个foundation学习通用规律，多个小专家对接不同实体。