【具身智能】Spatial Forcing 论文笔记 如何隐式地为 VLA 注入 3D 空间感知能力

Spatial Forcing

Implicit Spatial Representation Alignment For Vision-Language-Action Model


🧠 摘要(Abstract)

✅ 研究背景

视觉-语言-动作模型(VLA)能让机器人根据语言指令执行动作,展现出巨大潜力。

⚠️ 核心问题

大多数 VLA 模型基于仅在 2D 图像 上预训练的视觉-语言模型(VLM),缺乏对 3D 空间结构 的理解,难以在物理世界中精确操作。

🔍 现有方法及其局限

  1. 显式引入 3D 输入 (如深度图、点云):
    • 问题:传感器噪声大、硬件差异大、数据不完整。
  2. 从 2D 图像估计 3D 信息
    • 问题:深度估计器性能有限,导致策略次优。

🌟 本文方法:Spatial Forcing(SF)

  • 核心思想隐式地 迫使 VLA 模型发展空间理解能力,不依赖 显式 3D 输入或深度估计器。
  • 实现方式 :将 VLA 的 中间视觉嵌入预训练 3D 基础模型(如 VGGT)生成的几何表征进行对齐。
  • 效果
    • 提升动作精度;
    • 训练速度提升 3.8 倍
    • 数据效率更高;
    • 在模拟与真实环境中均达到 SOTA 性能。

📖 第一章:引言(Introduction)

🔁 问题重述

  • VLA 模型通常基于 VLM 构建,继承其语义理解能力;
  • 但 VLM 仅在 2D 数据上训练,缺乏 3D 空间感知能力
  • 导致机器人在 3D 环境中难以完成精确操作。

🧪 动机实验:深度探测(Depth Probing)

  • 做法:冻结 VLA 模型的视觉编码器,仅训练一个 DPT 头部来预测深度图;
  • 结果 :预测出的深度图无意义,说明 VLA 的视觉嵌入中缺乏空间信息
  • 结论 :VLA 模型在没有外部空间监督的情况下,无法有效编码 3D 结构

🌟 提出方法:Spatial Forcing(SF)

  • 目标 :让 VLA 模型隐式地获得 3D 感知能力;
  • 方法 :将 VLA 的中间视觉嵌入与 VGGT(3D 基础模型)输出的空间表征对齐;
  • 优势
    • 不增加推理开销;
    • 不依赖 3D 传感器;
    • 可提升动作精度与训练效率。

🧪 第二章:方法(Method)

2.1 预备知识(Preliminaries)

🧠 VLA 模型结构

VLA 模型基于 VLM,处理三种模态:

  • 视觉模态 :多视角图像 → 编码为视觉 token:
    {xiV}i=1N\{x_i^V\}_{i=1}^N{xiV}i=1N
  • 语言模态 :任务指令 → 编码为语言 token:
    {xjL}j=1M\{x_j^L\}_{j=1}^M{xjL}j=1M
  • 动作模态 :基于视觉和语言 token,自回归地生成动作 token:
    {xkA}k=1K\{x_k^A\}_{k=1}^K{xkA}k=1K
🔢 动作生成公式(公式 1):

xtA∼pθ(xtA∣{xiV}i=1N,{xjL}j=1M,x<tA) x_t^A \sim p_\theta\left(x_t^A \mid \{x_i^V\}{i=1}^N, \{x_j^L\}{j=1}^M, x_{<t}^A\right) xtA∼pθ(xtA∣{xiV}i=1N,{xjL}j=1M,x<tA)

  • xtAx_t^AxtA:第 ttt 个动作 token;
  • pθp_\thetapθ:参数为 θ\thetaθ 的条件概率模型;
  • x<tAx_{<t}^Ax<tA:之前生成的动作 token。
📉 动作损失函数(公式 2):

Laction=L[G({xkA}),Agt] \mathcal{L}{\text{action}} = \mathcal{L}\left[\mathcal{G}(\{x_k^A\}), A{\text{gt}}\right] Laction=L[G({xkA}),Agt]

  • G\mathcal{G}G:动作专家(如 MLP),将动作 token 解码为实际动作;
  • AgtA_{\text{gt}}Agt:真实动作标签;
  • L\mathcal{L}L:损失函数(如 L1、L2)。
🧠 VGGT 模型
  • 输入:2D 图像;
  • 输出:3D 属性(深度图、点云、相机参数等);
  • 本文中用于提供 空间监督信号

2.2 动机(Motivation)

  • 2D VLA 模型缺乏 3D 理解;
  • 显式引入 3D 数据存在噪声、异构、缺失等问题;
  • 从 2D 估计 3D 又不准确;
  • 结论 :需要一种 不依赖显式 3D 输入 的方法来增强 VLA 的空间理解能力。

2.3 Spatial Forcing(SF)

🎯 目标

通过外部 3D 模型(VGGT)提供的空间表征,监督 VLA 的视觉嵌入,使其 隐式地 具备 3D 感知能力。

🧮 对齐损失函数(公式 3):

Lalign=−1N∑i=1NS[MLP⋅Γ(xiV),fi3D(I)+E] \mathcal{L}{\text{align}} = -\frac{1}{N} \sum{i=1}^N \mathcal{S}\left[\text{MLP} \cdot \Gamma(x_i^V), f_i^{3D}(I) + E\right] Lalign=−N1i=1∑NS[MLP⋅Γ(xiV),fi3D(I)+E]

  • xiVx_i^VxiV:VLA 的视觉 token;
  • Γ\GammaΓ:BatchNorm;
  • MLP:两层感知机,用于维度对齐;
  • fi3D(I)f_i^{3D}(I)fi3D(I):VGGT 输出的空间表征;
  • EEE:位置编码,保留 token 的位置信息;
  • S\mathcal{S}S:余弦相似度;
  • 目标:最大化 VLA 视觉 token 与 3D 表征之间的相似性。
🧠 监督哪一层?
  • 实验发现:第 24 层(共 32 层)效果最好;
  • 太浅:表征未充分提取;
  • 太深:视觉特征已融合语言信息,不适合空间监督。
📦 总损失函数(公式 4):

LSF=Laction+α⋅Lalign \mathcal{L}{\text{SF}} = \mathcal{L}{\text{action}} + \alpha \cdot \mathcal{L}_{\text{align}} LSF=Laction+α⋅Lalign

  • α\alphaα:权重因子,实验中设为 0.5;
  • 平衡动作预测与空间对齐两个目标。
✅ 推理阶段
  • VGGT 和对齐损失被完全移除
  • VLA 模型结构与标准模型完全一致;
  • 不增加任何推理开销

📊 第三章:仿真实验(Simulation Experiments)

3.1 实验设置

  • 平台:LIBERO(4 个任务套件)、RoboTwin(双臂任务);
  • 基础模型
    • LIBERO:OpenVLA-OFT;
    • RoboTwin:π0\pi_0π0;
  • 指标:任务成功率(SR)。

3.2 与 SOTA 方法对比

  • LIBERO :SF 平均成功率 98.5%,超过所有 2D 和 3D 方法;
  • RoboTwin:SF 在所有任务中均表现最佳,尤其在困难设置中提升显著。

3.3 消融实验(Ablation Study)

实验项 结论
目标表征 使用 VGGT + 位置编码最佳(96.9%)
对齐层数 第 24 层最佳
训练效率 SF 实现 3.8 倍 加速
数据效率 仅用 5% 数据达到 75.8% 成功率,5.9 倍 数据效率提升
t-SNE 可视化 VLA 特征与目标结构一致,但未发生表征崩溃

🤖 第四章:真实世界实验(Real-World Experiments)

设置

  • 平台:AgileX 双臂机器人;
  • 数据量:单臂 40 条演示,双臂 20 条;
  • 任务
    • 单臂:堆叠玻璃杯(光照变化)、抓蔬菜(物体变化)、放积木(高度变化);
    • 双臂:举罐子(平衡测试);

结果

任务 基线 SF 提升
堆叠玻璃杯 15.0% 62.5% +47.5%
抓蔬菜 10.0% 47.5% +37.5%
放积木 67.5% 85.0% +17.5%
举罐子 30.0% 42.5% +12.5%
  • 结论 :SF 显著提升了机器人在真实环境中的 空间理解能力数据效率

📚 第五章:相关工作(Related Work)

  • VLA 模型发展
    • 从 2D 到 3D(引入深度、点云);
    • 本文创新:不修改输入,而是监督中间表征
  • 表征监督
    • 重建式:可能保留冗余信息;
    • 对齐式(如 SF):更有效,避免表征崩溃。

✅ 第六章:结论(Conclusion)

  • 提出 Spatial Forcing,一种隐式增强 VLA 空间感知能力的方法;
  • 通过 对齐中间视觉表征3D 基础模型,显著提升性能;
  • 在模拟与真实任务中均验证了其 高效性、通用性与实用性

相关推荐
wzx_Eleven2 小时前
【论文阅读】Towards Fair Federated Learning via Unbiased Feature Aggregation
论文阅读·人工智能·神经网络
张较瘦_4 小时前
[论文阅读] AI+ | AI重构工业数字孪生!新一代iDTS破解数据稀缺、智能不足难题,附3大落地案例
论文阅读·人工智能·重构
DuHz15 小时前
基于时频域霍夫变换的汽车雷达互干扰抑制——论文阅读
论文阅读·算法·汽车·毫米波雷达
张较瘦_15 小时前
[论文阅读] AI + 职业教育 | 从框架到实践:职业院校教师人工智能素养提升的完整方案
论文阅读·人工智能
仙人掌_lz16 小时前
Kimi Linear 论文阅读笔记:第一次“线性注意力”全面胜过全注意力
论文阅读·笔记
平和男人杨争争16 小时前
SNN(TTFS)论文阅读——LC-TTFS
论文阅读·人工智能·神经网络·机器学习
2301_7978928316 小时前
论文阅读:《A Universal Model for Human Mobility Prediction》
论文阅读
锂享生活21 小时前
论文阅读:铁路车辆跨临界 CO₂ 空调系统模型预测控制(MPC)策略
论文阅读·算法
DuHz1 天前
霍夫变换和基于时频脊线的汽车FMCW雷达干扰抑制——论文阅读
论文阅读·物联网·算法·汽车·信息与通信·毫米波雷达