通过世界模拟器进行具象化视觉空间推理 (Astra)

通过世界模拟器进行具象化视觉空间推理 (Astra)

论文来源 : arXiv:2606.06476 | 主题: 空间推理、世界模拟器、强化学习、具身智能、思维链


📌 摘要与核心贡献

当前视觉语言模型(VLMs)虽然在视觉推理方面表现强劲,但在空间推理能力上仍局限于观察到的图像和面向文本的链式思维。本文提出 Astra 框架,将空间推理转化为交互式证据获取过程,通过自然语言相机运动指令主动查询世界模拟器(World Simulator)。

🌟 核心贡献

  1. 思考与具象化 (Thinking with Imagination):通过世界模拟器将空间推理转化为交互式过程,实现跨视角一致性与推理未观察布局的能力。
  2. Astra-WM (世界模拟器):基于 Bagel 的模拟器,通过视图一致性调优生成空间一致的新视角。
  3. Astra-VL (代理策略):基于强化学习的策略模型(从 Qwen3-VL-8B 初始化),决定何时调用模拟器、选择相机运动并评估返回的观测结果。
  4. RL 数据与策略:采用两阶段 RL 课程训练,通过硬样本保留策略构建了 6k 的高质量训练样本。

1. 核心架构与组件

组件 描述
Astra-WM 基于 Bagel 的模拟器,通过视图一致性调优 (View Consistency Tuning) 进行微调。利用上下文图像和相机运动指令生成空间一致的新视图。
Astra-VL 强化学习的代理策略(策略模型),从 Qwen3-VL-8B 初始化。决定何时调用模拟器、选择相机运动指令,并评估返回的观测结果。
交互格式 I^t+1=W(I1:t,rt,ut)\hat{I}{t+1} = \mathcal{W}(\mathcal{I}{1:t}, r_t, u_t)I^t+1=W(I1:t,rt,ut),其中 I1:t\mathcal{I}_{1:t}I1:t 是上下文图像,rtr_trt 是参考图像索引,utu_tut 是自然语言相机运动指令。

2. 方法论与训练细节

2.1 视图一致性调优 (View Consistency Tuning)

  • 数据 :使用来自室内场景(ScanNet, Matterport3D, ARKitScenes, DL3DV)的 544k 个经过质量验证的 SFT 样本。
  • 目标:确保生成的视图遵循请求的运动并保留场景布局。

2.2 Astra-VL 的两阶段强化学习 (RL) 课程

为了平衡直接回答与使用模拟器的能力,设计了以下奖励机制:

  • 第一阶段(探索与工具获取) :防止策略崩溃为直接回答,并教有效交互:
    ri(1)=riem+λfmtrifmt+λusemin⁡(nitool,c)r_i^{(1)} = r_i^{\text{em}} + \lambda_{\text{fmt}} r_i^{\text{fmt}} + \lambda_{\text{use}} \min(n_i^{\text{tool}}, c)ri(1)=riem+λfmtrifmt+λusemin(nitool,c)
  • 第二阶段(选择性具象化) :仅在模拟器能提升直接回答效果时才鼓励使用:
    Δi=ei−egdirect\Delta_i = e_i - e^{\text{direct}}gΔi=ei−egdirect
    ri(2)=riem+λfmtrifmt+λusemin⁡(nitool,c)+αmax⁡(0,Δi)−βmax⁡(0,−Δi)r_i^{(2)} = r_i^{\text{em}} + \lambda
    {\text{fmt}} r_i^{\text{fmt}} + \lambda_{\text{use}} \min(n_i^{\text{tool}}, c) + \alpha \max(0, \Delta_i) - \beta \max(0, -\Delta_i)ri(2)=riem+λfmtrifmt+λusemin(nitool,c)+αmax(0,Δi)−βmax(0,−Δi)

RL 参数

  • λfmt=0.5\lambda_{\text{fmt}} = 0.5λfmt=0.5
  • α=0.1\alpha = 0.1α=0.1
  • β=0.03\beta = 0.03β=0.03
  • c=1c = 1c=1
  • λuse=0.02\lambda_{\text{use}} = 0.02λuse=0.02
  • RL 数据构建 :使用高温采样(temp=1.5)跨空间 QA 类别保留硬样本,最终得到 6000 个训练样本。

3. 实验评估与结果

3.1 基准测试结果

模型/指标 MMSI-Bench MindCube
Qwen3-VL-8B (直接回答) 29.8 36.8
Astra-VL (代理式) 38.8 (+9.0) 42.7 (+5.9)
Gemini-3-Flash + Astra-WM 49.5 (+4.4) -
Gemini-3-Flash + Bagel 45.8 -

工作流程模式对比

  • 强制工具使用:改进了基于相机的关系(如 Cam.--Cam. ↑ 至 47.9),但由于噪声削弱了对象/区域中心关系。
  • 代理式工具使用:通过自适应决定何时具象化、减少不必要的工具调用并正确评估证据,实现了整体最佳性能。

3.2 消融实验与洞察

  • 模拟器质量:通用图像生成不足以保证空间推理,空间一致性(姿态和内容)至关重要。Astra-WM 在姿态一致性和内容保留方面显著优于现成的 Bagel。
  • 策略选择性:访问模拟器本身可能因模型不知道何时/如何使用而降低性能。两阶段 RL 课程平衡了探索与选择性具象化。
  • 失败模式:错误源于非 informative 动作、空间不一致的模拟器输出或错误评估。策略必须区分原始图像与生成的图像。

4. 局限性

  • 奖励稀疏性:精确匹配差异是稀疏的,可能无法捕获部分有用的观测结果。
  • 策略不稳定性:若调优不当,策略要么崩溃为直接回答,要么过度使用模拟器。
  • 未来方向:更强的路由机制、优化期望信息增益、在工具观测后添加验证器式推理、构建偏好数据以区分有用/有害的工具调用。

相关推荐
黎阳之光2 小时前
数智赋能水厂全链路安全|黎阳之光以视频孪生技术落地供水精细化管控
人工智能·物联网·算法·安全·数字孪生
金融RPA机器人丨实在智能3 小时前
即通过视觉识别技术为现有GUI软件加上“AI适配器”
人工智能·ai
YXWik63 小时前
图片 OCR 文字提取 (Python + AI 模型(ModelScope))
人工智能·python·ocr
自动跟随3 小时前
UWB自动跟随技术全栈解析:从定位算法到“位控一体化“
java·网络·人工智能
AiMagicGaGa3 小时前
被大模型 API 拿捏效率的研发日常
人工智能·aigc
云道轩3 小时前
腾讯云上有性能比较强的英伟达GPU
人工智能·云计算·腾讯云·英伟达gpu
常宇杏起在3 小时前
AI安全专项:AI密码技术的应用与安全防护
人工智能·安全
不惑_3 小时前
腾讯云WorkBuddy实战, 全场景智能体工作搭子,这只龙虾真能帮你干活吗
人工智能·云计算·腾讯云·openclaw
wanmeijuhao3 小时前
腾讯云 AI 代码助手编程挑战赛 + 构建开发板垃圾图片识别AI对话的Copilot
人工智能·腾讯云·copilot·腾讯云ai代码助手