【论文阅读】HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

快速了解部分

基础信息(英文):

  1. 题目: HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
  2. 时间: 2026.04
  3. 机构: Tencent Robotics X × HY Vision Team
  4. 3个英文关键词: Embodied Intelligence, Vision-Language Models, Mixture-of-Transformers

1句话通俗总结本文干了什么事情

腾讯团队研发了一套专为机器人设计的视觉语言模型(VLM),通过独特的架构和训练方法,让机器人能更精准地看懂世界、进行空间推理并规划行动。

研究痛点:现有研究不足 / 要解决的具体问题

通用的大模型(LLM/VLM)虽然知识渊博,但在物理世界面前"眼高手低":缺乏对物体细节、空间位置的精细感知能力,也缺少在物理环境中进行预测、交互和规划的"具身智能"思维。

核心方法:关键技术、模型或研究设计(简要)

搞了两个模型:一个2B参数的小模型专供边缘设备(机器人本体)使用,一个32B参数的大模型负责"传帮带"。核心技术是用MoT架构让模型对图像和文字分别处理,加上"视觉潜token"来连接视觉与语言,并用迭代强化学习提升推理能力。

深入了解部分

作者想要表达什么

作者认为,要让数字智能走进物理世界,不能直接套用通用模型,必须专门设计一种既能像人一样通过视觉感知环境,又能像AI一样进行深度逻辑思考的"机器人大脑"。

相比前人创新在哪里

  1. 架构创新 :采用了Mixture-of-Transformers (MoT),把处理图像和文字的参数分开,互不干扰,既提升了视觉感知能力,又不牺牲语言能力。
  2. 连接机制 :引入了Visual Latent Tokens,作为视觉和语言之间的桥梁,专门用来捕捉图像的整体语义信息。
  3. 训练策略:设计了一套**"大带小"**(Large-to-Small Distillation)的策略,让强大的大模型把自己的"思考过程"教给小模型,让小模型也能拥有接近大模型的智商。

解决方法/算法的通俗解释

想象一下,这是在训练一个"机器人驾驶员"。

  • MoT架构就像是给驾驶员配了两个专门的助手:一个专门负责"看路"(处理图像),一个专门负责"听导航"(处理文字),而不是让一个助手同时干两件事导致手忙脚乱。
  • 视觉潜token就像是驾驶员脑海里对当前路况生成的一个"核心印象",这个印象直接决定了他怎么理解导航语音。
  • 大带小就像是让一个经验丰富的老司机(32B大模型)坐在新手(2B小模型)旁边,不仅告诉新手该怎么做,还把自己的思考逻辑直接传授给他。

解决方法的具体做法

  1. 数据大杂烩:喂给模型海量数据,包括普通图文、机器人操作视频、3D空间坐标、物体深度信息等(总计超600B tokens)。
  2. 分阶段训练
    • 预训练:用大数据打基础,学会看懂图像和理解语言。
    • 中期训练:引入专门的具身和空间数据,让模型学会"深度思考"(Chain-of-Thought)。
    • 强化学习:通过打分机制(Reward),让模型自己试错,不断优化自己的回答,直到满分。
    • 蒸馏:最后,让32B的大模型去指导2B的小模型做题,把大模型的"解题思路"压缩进小模型里。

基于前人的哪些方法

  • 基于 Vision Transformer (ViT) 进行图像编码。
  • 借鉴了 Mixture-of-Experts (MoE) 的思想,发展出了针对模态的 Mixture-of-Transformers (MoT)
  • 使用了 Chain-of-Thought (CoT)Rejection Sampling 等强化学习方法来提升推理能力。

实验设置、数据、评估方式、结论

  • 模型规模:MoT-2B(20亿参数,边缘端) vs MoE-A32B(320亿参数,云端)。
  • 数据集:自建了包含1亿+样本的高质量数据集,涵盖视觉感知、空间、具身任务。
  • 评估基准:在22个公开基准测试中横扫千军,包括视觉感知(CV-Bench)、空间理解(3DSRBench)、机器人任务(RoboBench)等。
  • 结论
    • 2B小模型:在同类小模型中拿了16个第一,甚至能打败参数量比它大的竞品,且在通用任务上不输Qwen3-VL。
    • 32B大模型:性能对标甚至超越了Gemini 3.0 Pro等顶尖模型。
    • 真机测试:在真实的机械臂(插头打包、叠餐具、挂杯子)任务中,成功率显著高于基线模型(π0/π0.5)。

提到的同类工作

  • 通用VLM:Qwen3-VL, Gemini 3.0, GPT-5
  • 具身/机器人模型:RoboBrain 2.5, RoboMind, RT-X, OS-Copilot

和本文相关性最高的3个文献

  1. Liang et al., 2024 (Mixture-of-Transformers):本文核心架构MoT的直接理论基础,提供了模态自适应计算的思路。
  2. Zelikman et al., 2024 (Latent Thinking):启发了本文使用Visual Latent Tokens来连接视觉与语言,增强模型的感知表示。
  3. Shao et al., 2024 (DeepSeekMath / Iterative RL):本文在后训练阶段采用的迭代强化学习范式的参考来源,用于提升模型的深度思考能力。

我的

  1. 训练了一个32B的VLM,只能做VQA和Spatial reasoning任务。然后蒸馏到一个2B的VLM上,然后加了一个action expert头(和pi系列一样)。
相关推荐
星越华夏4 小时前
计算机视觉:YOLOv12安装环境
人工智能·yolo·计算机视觉
Yolanda946 小时前
【人工智能】《从零搭建AI问答助手项目(九):Prompt优化》
人工智能·prompt
wj3055853786 小时前
课程 9:模型测试记录与 Prompt 策略
linux·人工智能·python·comfyui
小和尚同志6 小时前
深入使用 skill-creator:结合真实生产级实践
人工智能·aigc
DevSecOps选型指南6 小时前
安全419专访悬镜安全 | 穿越周期在 AI 浪潮中定义数字供应链安全新范式
人工智能
沪漂阿龙6 小时前
面试题详解:GraphRAG 全面解析——知识图谱增强 RAG、Local Search、Global Search、社区摘要、工程落地与评估指标一次讲透
人工智能·知识图谱
WangN26 小时前
Unitree RL Lab 学习笔记【通识】
人工智能·机器学习
haina20196 小时前
海纳AI亮相《科创中国》,解码招聘“智”变之路
人工智能·ai面试·ai招聘
阿星AI工作室6 小时前
刘润年中大课笔记:一句话说清AI落地之战的本质
大数据·人工智能·创业创新·商业
qingfeng154157 小时前
企业微信机器人开发:如何实现自动化与智能运营?
人工智能·python·机器人·自动化·企业微信