【论文阅读】Igniting VLMs toward the Embodied Space

【论文阅读】Igniting VLMs toward the Embodied Space

  • [1 发表时间与团队](#1 发表时间与团队)
  • [2 问题背景与核心思路](#2 问题背景与核心思路)
  • [3 具体设计](#3 具体设计)
    • [3.0 架构设计(统一跨层思维链)](#3.0 架构设计(统一跨层思维链))
      • [核心机制(Path-Drop 训练策略)](#核心机制(Path-Drop 训练策略))
    • [3.1 模型设计 (Architecture)](#3.1 模型设计 (Architecture))
    • [3.2 训练设计(Training recipe)](#3.2 训练设计(Training recipe))
    • [3.3 数据设计 (Data)](#3.3 数据设计 (Data))
  • [4 实验表现](#4 实验表现)
  • [5 结论](#5 结论)

1 发表时间与团队

  • 时间:该研究成果于 2024 年底至 2025 年初发布(对应 Qwen2.5-VL 后的最新具身智能浪潮)。

  • 团队:自变量。

2 问题背景与核心思路

问题背景

  • Tokenization Gulf(词元化鸿沟):传统 VLM 擅长处理离散的文本符号,而机器人需要连续的物理信号。
  • 松耦合困境:如 π 0 \pi_0 π0 等现有模型,将动作分支作为 VLM 的"插件",导致机器人"懂了指令但做不准动作",即指令遵循能力(Instruction Following)不足。

核心思路

"手脑一体"的紧耦合:通过 Uni-CoT(统一跨层思维链) 和特定的 MoE 架构,将逻辑推理与物理执行强行统一在同一个数学框架内,覆盖从"语义到感知运动"的全任务谱系。

3 具体设计

3.0 架构设计(统一跨层思维链)

Uni-CoT 的核心在于它覆盖了语义-感知运动全谱系。可以把它想象成一个逐级降维的过程:

  • 最高层:指令 (Instruction)
    • 输入:"帮我把桌子上的垃圾清理掉。"
    • 属性:极其抽象,完全没有物理细节。
  • 中间层:逻辑推理 (Textual CoT)
    • 生成:"桌上有个空罐子,我需要先移动到它上方,然后抓取并扔进右侧纸篓。"
    • 属性:将大任务拆解为逻辑子目标。
  • 桥接层:子任务规划 (Subtask Plan)
    • 生成:具体的空间航点或离散动作(例如 FAST Tokens)。
    • 属性:将逻辑转化为具体的物理意图。
  • 底层:连续动作 (Continuous Actions)
    • 输出:由 Flow-matching 生成的毫米级坐标和夹爪开度。
    • 属性:纯物理信号,直接控制电机。

核心机制(Path-Drop 训练策略)

这是 Uni-CoT 能够"落地"的关键。如果模型每次做动作前都要写一段话,机器人会反应迟钝。

  • 训练时:研究团队会随机"丢弃"中间的推理步骤(CoT)或子任务规划。
    • 路径 A:指令 → \rightarrow → 推理 → \rightarrow → 规划 → \rightarrow → 动作(用于复杂、陌生任务)。
    • 路径 B:指令 → \rightarrow → 动作(用于简单、熟练任务)。
    • 结果:这种策略强制模型在底层表征上实现**"跨层对齐"**。即使不输出文字推理,模型的特征向量里也已经隐含了逻辑信息。

端到端可微(Differentiable):以当机械臂没抓准时,梯度会直接回流,告诉模型:"你刚才对'杯子'这个词的空间定位(Grounding)有偏差"。

3.1 模型设计 (Architecture)

  • Backbone(底座):选用 Qwen2.5-VL-3B,利用其原生动态分辨率和强大的空间 Grounding 能力。
  • MoE 静态路由:Vision-Language FFN:负责感知和语义理解。Action FFN:负责动作特征生成。两者共享 Attention(自注意力机制),确保动作实时受视觉和指令指引。
  • 生成算法:采用 Flow Matching(流匹配) 代替传统的 Diffusion,生成更平滑、更直接的动作轨迹。

3.2 训练设计(Training recipe)

三阶段训练策略:

  • base模型预训练
  • Inspiration Stage(启发阶段):引入 FAST Tokenization(cf. π 0 \pi_0 π0-FAST),让模型学会"动作单词"的离散 Choice。
  • Integration Stage(整合阶段):冻结/解冻 VLM,通过流匹配学习高精度的连续控制,实现"肌肉记忆"。
    • Phase 1: 锁死大脑,激活小脑(Frozen VLM Training)

      在这一阶段,团队采取了极其谨慎的策略:冻结(Freeze) 整个视觉语言模型(VLM)的主体参数。

      • 操作细节:Qwen2.5-VL 的所有 Transformer 层参数都不动。只训练新加入的 Flow Head(流匹配预测头) 和 Action FFN(动作专家网络)。
      • 核心逻辑:
        • 防止知识污染:机器人动作数据(如机械臂的坐标序列)与互联网文本数据分布完全不同。如果一开始就全量训练,会导致模型出现"灾难性遗忘",变得不再会说话或理解逻辑。
        • 特征对齐:强制要求动作专家学会如何从已经成型的视觉/语言特征中,提取出对控制有用的信息。
      • 训练目标:模型开始接触 Flow Matching。它学习如何在给定的视觉背景下,将随机噪声逐渐"推"向真实的动作轨迹。
    • Phase 2: 全身合练,手脑合一(Unfrozen Joint Optimization):当 Action FFN 已经初步学会如何根据视觉信号生成动作后,模型进入了全参数微调阶段。

      • 操作细节:解除冻结(Unfreeze):允许 VLM 主体、Action FFN 和视觉编码器同步更新梯度。
      • 核心逻辑:
        • 深度融合:在 Phase 1 中,大脑和小脑是"各过各的"。在 Phase 2,通过联合优化,VLM 内部的注意力权重会发生微调,使其更敏锐地捕捉那些对动作至关重要的视觉细节(比如夹爪边缘的微小位移)。
        • Uni-CoT 的闭环:此时,文本推理(CoT)产生的中间表征直接参与到动作生成的梯度计算中。如果动作做错了,模型会反思是不是中间的推理逻辑或空间 Grounding 出了问题。
      • 训练目标:通过端到端的微分(Differentiable),实现**指令遵循(Instruction Following)**的极致对齐。确保"把杯子拿远一点"这种抽象的程度词,能精确反映在电机的位移量上。

3.3 数据设计 (Data)

  • 具身 VQA 增强:针对空间定位、坐标预测、任务进度建模设计了大量的自动生成问答数据,用于填补预训练模型与物理世界的分布差距。

4 实验表现

  • 基准对比:在 Open X-Embodiment 等数据集上,将 π 0 \pi_0 π0 设为主要竞争对手。
  • 关键指标:
    • 指令遵循:得益于 Uni-CoT,在复杂长程任务中表现卓越。
    • 空间精度:通过 VQA 强化,其物体定位和抓取成功率大幅领先。
    • 推理效率:Path-drop 机制使得简单任务可以"秒发"动作,而复杂任务则会"深思熟虑"。

5 结论

WALL-OSS 证明了统一思维链是具身智能进化的关键。它不仅让 VLM 获得了空间感,更通过一种端到端可微的架构,解决了长期以来"感知"与"控制"脱节的问题。

相关推荐
觉醒大王1 天前
哪些文章会被我拒稿?
论文阅读·笔记·深度学习·考研·自然语言处理·html·学习方法
觉醒大王1 天前
强女思维:着急,是贪欲外显的相。
java·论文阅读·笔记·深度学习·学习·自然语言处理·学习方法
张较瘦_1 天前
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路
论文阅读·人工智能·机器学习
m0_650108242 天前
IntNet:面向协同自动驾驶的通信驱动多智能体强化学习框架
论文阅读·marl·多智能体系统·网联自动驾驶·意图共享·自适应通讯·端到端协同
m0_650108242 天前
Raw2Drive:基于对齐世界模型的端到端自动驾驶强化学习方案
论文阅读·机器人·强化学习·端到端自动驾驶·双流架构·引导机制·mbrl自动驾驶
快降重科研小助手2 天前
前瞻与规范:AIGC降重API的技术演进与负责任使用
论文阅读·aigc·ai写作·降重·降ai·快降重
源于花海3 天前
IEEE TIE期刊论文学习——基于元学习与小样本重训练的锂离子电池健康状态估计方法
论文阅读·元学习·电池健康管理·并行网络·小样本重训练
m0_650108243 天前
UniDrive-WM:自动驾驶领域的统一理解、规划与生成世界模型
论文阅读·自动驾驶·轨迹规划·感知、规划与生成融合·场景理解·未来图像生成
蓝田生玉1233 天前
LLaMA论文阅读笔记
论文阅读·笔记·llama
*西瓜3 天前
基于深度学习的视觉水位识别技术与装备
论文阅读·深度学习