【论文阅读】Being-H0.7: A Latent World-Action Model from Egocentric Videos

快速了解部分

基础信息(英文):

  1. 题目: Being-H0.7: A Latent World-Action Model from Egocentric Videos
  2. 时间: 2026.04
  3. 机构: BeingBeyond Team
  4. 3个英文关键词: Latent World-Action Model, Egocentric Videos, Robot Learning

1句话通俗总结本文干了什么事情

在VLA和WAM之间找平衡:用少量latent query在隐空间做"未来推理",既保留VLA的推理效率,又获得WAM的未来感知能力,预训练20万小时第一人称视频后在多个机器人benchmark上SOTA。

研究痛点:现有研究不足 / 要解决的具体问题

  • VLA: 直接从观测映射到动作,但动作监督稀疏,容易学到表面相关性而非物理规律,行为模式单一易崩溃
  • WAM: 通过视频生成建模未来,但推理时需要rollout未来帧,延迟高,像素预测误差会传播到动作导致长程任务失败
  • 训练成本悬殊:Cosmos Policy训练需3000+ H100小时,而VLA如Being-H0.5仅需~50小时,效率差60倍

核心方法:关键技术、模型或研究设计(简要)

  • 引入少量learnable latent queries作为compact reasoning interface,位于multimodal context和action之间
  • 双分支设计:prior分支(仅当前上下文)+ posterior分支(可看未来观测),通过hidden state alignment让prior学会从当前上下文推断未来相关信息
  • 仅prior分支用于推理,posterior仅训练时用,实现"训练时看未来,推理时靠直觉"
  • 用norm和rank regularization防止latent空间magnitude/directional collapse

深入了解部分

作者想要表达什么

世界建模不必在像素空间显式预测未来帧,可以在action-oriented的latent space中隐式完成。关键不是"选VLA还是WAM",而是用latent reasoning space桥接两者:抽象到能捕捉任务语义,紧凑到能过滤像素冗余,grounded到能支持dense控制。

相比前人创新在哪里

  • 不同于VLA直接观测→动作,引入latent reasoning space组织未来相关信息,避免行为崩溃
  • 不同于WAM在像素空间rollout未来,在latent space对齐future-aware表示,推理时无需生成未来帧,保持低延迟
  • 双分支joint alignment + lightweight regularization,用单前向传播(MoT结构)实现双分支训练,效率远高于独立双模型

解决方法/算法的通俗解释

想象机器人要做决策:

  • 传统VLA:看到什么就马上动,不太考虑"接下来会怎样",容易在动态场景中翻车
  • 传统WAM:先脑补一堆未来画面再决定怎么动,慢且容易脑补错,错一步步步错
  • Being-H0.7:在脑子里先快速过一遍"关键的未来信息"(用16个latent query表示),再决定动作。训练时偷偷给模型看真实未来,让它学会哪些未来信息对决策有用;推理时不用看未来,靠学过的"直觉"快速推理。

解决方法的具体做法

  1. 序列构造:[instruction; obs history; state; latent queries Q; noised action chunk],Q∈R^K×d参与Transformer逐层传播
  2. 双分支实现(单前向传播,MoT结构):
    • Prior: 输入=当前上下文+learnable Q → 预测动作
    • Posterior: 输入=当前上下文+future embeddings(由未来观测经frozen ViT+Perceiver编码)→ 预测动作
    • 双分支attention mask:shared context可见,branch-specific tokens隔离,仅通过对齐的latent states交互
  3. 损失函数:
    • Flow matching loss:两分支分别预测action velocity,监督动作生成
    • Alignment loss: L2对齐两分支在latent query位置的hidden states(多层)
    • Regularization: norm约束防magnitude collapse + rank约束(Gram矩阵熵)防directional collapse
  4. 推理:仅用prior分支,latent queries已通过学习具备"未来感知"能力

基于前人的哪些方法

  • VLA框架(π0, Being-H0.5):multimodal input + flow matching action head + chunked action prediction
  • World modeling for robotics(DreamZero, Cosmos Policy, Fast-WAM):用video prior增强策略
  • JEPA-style latent predictive learning:在表示空间而非像素空间做预测
  • Mixture-of-Transformers:高效实现多分支共享主干

实验设置、数据、评估方式、结论

  • 数据:200,000小时egocentric human videos(~15×Being-H0.5)+ 15,000小时robot demonstrations,32种pretrained embodiments
  • 模型:3B参数,flow matching action head,K=16 latent queries,H=4观测horizon,T=20 action chunk
  • Simulation benchmark(6个):LIBERO(99.2%), RoboCasa-50(62.1%), GR1(49.2%), LIBERO-plus(82.1%/84.8%), RoboTwin 2.0(90.2%/89.6%), CALVIN(4.67/4.48 avg tasks),整体SOTA
  • Real-world(3平台12任务):PND Adam-U/Unitree G1/Franka FR3 + Linkerbot O6手,5类能力suite(dynamic scene/physical reasoning/motion reasoning/long horizon/generalization),Being-H0.7全领先
  • 效率:推理延迟3.5ms/step(UAC机制),GPU显存5.6GB,与VLA相当,远低于WAM

提到的同类工作

  • VLA路线:π0/π0.5, OpenVLA, gr00t-N1, Being-H0.5, StarVLA, UniVLA, X-VLA
  • World-Action Model路线:DreamZero, Cosmos Policy, LingBot-VA, Fast-WAM, UWM, UVA, VPP, JEPA-VLA, VLA-JEPA
  • Latent predictive方法:JEPA, FLARE, Motus

和本文相关性最高的3个文献

  1. Fast-WAM[11]: 同样关注推理效率,训练时用video co-training,推理时skip future generation,与本文"训练看未来/推理不用"理念最接近
  2. JEPA-VLA[58]/VLA-JEPA: 用latent predictive representation增强VLA,与本文latent world modeling在表示空间建模未来的思路高度相关
  3. Cosmos Policy[9]: 用pretrained video model fine-tune for robot control,代表pixel-space WAM路线,与本文形成效率/效果对比基准
相关推荐
lsjweiyi13 小时前
WSL2 + ROCm + PyTorch 深度学习环境配置全记录
人工智能·pytorch·深度学习
孟俊宇-MJY13 小时前
10 分钟零门槛本地部署 AI 编码助手!Ollama+Qwen2-7B+Continue 全程无外网、代码不泄露,企业内网合规首选【全平台完整版】
人工智能
霸道流氓气质13 小时前
Spring AI ChatMemory 对话记忆配置指南:概念、实战与常见问题
java·人工智能·spring
十六年开源服务商13 小时前
外贸WordPress用户调查与满意度调查实战指南2026
大数据·数据库·人工智能
happyprince13 小时前
07-FlagEmbedding 研究项目分析
人工智能
鹿角片ljp13 小时前
将流量研判能力封装成 MCP与Skill:AI工具化实践
人工智能
吾辈亦有感13 小时前
【动手学大语言模型】神经网络启蒙:PyTorch 入门实战
人工智能·pytorch·大语言模型
小王毕业啦13 小时前
1949-2023年 各地级市、县新注册农民专业合作社数量数据(xlsx+dta+代码)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
夜影风13 小时前
AI Agent初探:让LLM自己决定该调用什么工具
人工智能·langchain·ai agent