【论文阅读】HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

传说故事2026-05-01 10:28

快速了解部分

基础信息（英文）：

题目: HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
时间: 2026.04
机构: Tencent Robotics X × HY Vision Team
3个英文关键词: Embodied Intelligence, Vision-Language Models, Mixture-of-Transformers

1句话通俗总结本文干了什么事情

腾讯团队研发了一套专为机器人设计的视觉语言模型（VLM），通过独特的架构和训练方法，让机器人能更精准地看懂世界、进行空间推理并规划行动。

研究痛点：现有研究不足 / 要解决的具体问题

通用的大模型（LLM/VLM）虽然知识渊博，但在物理世界面前"眼高手低"：缺乏对物体细节、空间位置的精细感知能力，也缺少在物理环境中进行预测、交互和规划的"具身智能"思维。

核心方法：关键技术、模型或研究设计（简要）

搞了两个模型：一个2B参数的小模型专供边缘设备（机器人本体）使用，一个32B参数的大模型负责"传帮带"。核心技术是用MoT架构让模型对图像和文字分别处理，加上"视觉潜token"来连接视觉与语言，并用迭代强化学习提升推理能力。

深入了解部分

作者想要表达什么

作者认为，要让数字智能走进物理世界，不能直接套用通用模型，必须专门设计一种既能像人一样通过视觉感知环境，又能像AI一样进行深度逻辑思考的"机器人大脑"。

相比前人创新在哪里

架构创新 ：采用了Mixture-of-Transformers (MoT)，把处理图像和文字的参数分开，互不干扰，既提升了视觉感知能力，又不牺牲语言能力。
连接机制 ：引入了Visual Latent Tokens，作为视觉和语言之间的桥梁，专门用来捕捉图像的整体语义信息。
训练策略：设计了一套**"大带小"**（Large-to-Small Distillation）的策略，让强大的大模型把自己的"思考过程"教给小模型，让小模型也能拥有接近大模型的智商。

解决方法/算法的通俗解释

想象一下，这是在训练一个"机器人驾驶员"。

MoT架构就像是给驾驶员配了两个专门的助手：一个专门负责"看路"（处理图像），一个专门负责"听导航"（处理文字），而不是让一个助手同时干两件事导致手忙脚乱。
视觉潜token就像是驾驶员脑海里对当前路况生成的一个"核心印象"，这个印象直接决定了他怎么理解导航语音。
大带小就像是让一个经验丰富的老司机（32B大模型）坐在新手（2B小模型）旁边，不仅告诉新手该怎么做，还把自己的思考逻辑直接传授给他。

解决方法的具体做法

数据大杂烩：喂给模型海量数据，包括普通图文、机器人操作视频、3D空间坐标、物体深度信息等（总计超600B tokens）。
分阶段训练 ：
- 预训练：用大数据打基础，学会看懂图像和理解语言。
- 中期训练：引入专门的具身和空间数据，让模型学会"深度思考"（Chain-of-Thought）。
- 强化学习：通过打分机制（Reward），让模型自己试错，不断优化自己的回答，直到满分。
- 蒸馏：最后，让32B的大模型去指导2B的小模型做题，把大模型的"解题思路"压缩进小模型里。

基于前人的哪些方法

基于 Vision Transformer (ViT) 进行图像编码。
借鉴了 Mixture-of-Experts (MoE) 的思想，发展出了针对模态的 Mixture-of-Transformers (MoT)。
使用了 Chain-of-Thought (CoT) 和 Rejection Sampling 等强化学习方法来提升推理能力。

实验设置、数据、评估方式、结论

模型规模：MoT-2B（20亿参数，边缘端） vs MoE-A32B（320亿参数，云端）。
数据集：自建了包含1亿+样本的高质量数据集，涵盖视觉感知、空间、具身任务。
评估基准：在22个公开基准测试中横扫千军，包括视觉感知（CV-Bench）、空间理解（3DSRBench）、机器人任务（RoboBench）等。
结论：
- 2B小模型：在同类小模型中拿了16个第一，甚至能打败参数量比它大的竞品，且在通用任务上不输Qwen3-VL。
- 32B大模型：性能对标甚至超越了Gemini 3.0 Pro等顶尖模型。
- 真机测试：在真实的机械臂（插头打包、叠餐具、挂杯子）任务中，成功率显著高于基线模型（π0/π0.5）。

提到的同类工作

通用VLM：Qwen3-VL, Gemini 3.0, GPT-5
具身/机器人模型：RoboBrain 2.5, RoboMind, RT-X, OS-Copilot

和本文相关性最高的3个文献

Liang et al., 2024 (Mixture-of-Transformers)：本文核心架构MoT的直接理论基础，提供了模态自适应计算的思路。
Zelikman et al., 2024 (Latent Thinking)：启发了本文使用Visual Latent Tokens来连接视觉与语言，增强模型的感知表示。
Shao et al., 2024 (DeepSeekMath / Iterative RL)：本文在后训练阶段采用的迭代强化学习范式的参考来源，用于提升模型的深度思考能力。

我的

训练了一个32B的VLM，只能做VQA和Spatial reasoning任务。然后蒸馏到一个2B的VLM上，然后加了一个action expert头（和pi系列一样）。

上一篇：基于MongoDB Atlas的博客热榜

下一篇：220V转12V1000mA恒流驱动WT5112

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03CC-Switch & Claude 基于 Linux 服务器安装使用指南 04【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 05几个好用的ip纯净度检测网站 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07装上就回不去了：CodeGraph 让 AI 编程效率飙升 92%，它到底做了什么？08用了半年 OpenRouter，我换到了 Ofox.ai — 两个 AI API 聚合平台的真实对比 09codex app每次打开重连5次Reconnecting问题解决 10【AI】2026 年具身智能模型和世界模型总结