通过世界模拟器进行具象化视觉空间推理 (Astra)

论文来源 : arXiv:2606.06476 | 主题: 空间推理、世界模拟器、强化学习、具身智能、思维链

当前视觉语言模型（VLMs）虽然在视觉推理方面表现强劲，但在空间推理能力上仍局限于观察到的图像和面向文本的链式思维。本文提出 Astra 框架，将空间推理转化为交互式证据获取过程，通过自然语言相机运动指令主动查询世界模拟器（World Simulator）。

思考与具象化 (Thinking with Imagination)：通过世界模拟器将空间推理转化为交互式过程，实现跨视角一致性与推理未观察布局的能力。
Astra-WM (世界模拟器)：基于 Bagel 的模拟器，通过视图一致性调优生成空间一致的新视角。
Astra-VL (代理策略)：基于强化学习的策略模型（从 Qwen3-VL-8B 初始化），决定何时调用模拟器、选择相机运动并评估返回的观测结果。
RL 数据与策略：采用两阶段 RL 课程训练，通过硬样本保留策略构建了 6k 的高质量训练样本。

组件	描述
Astra-WM	基于 Bagel 的模拟器，通过视图一致性调优 (View Consistency Tuning) 进行微调。利用上下文图像和相机运动指令生成空间一致的新视图。
Astra-VL	强化学习的代理策略（策略模型），从 Qwen3-VL-8B 初始化。决定何时调用模拟器、选择相机运动指令，并评估返回的观测结果。
交互格式	I^t+1=W(I1:t,rt,ut)\hat{I}{t+1} = \mathcal{W}(\mathcal{I}{1:t}, r_t, u_t)I^t+1=W(I1:t,rt,ut)，其中 I1:t\mathcal{I}_{1:t}I1:t 是上下文图像，rtr_trt 是参考图像索引，utu_tut 是自然语言相机运动指令。

数据：使用来自室内场景（ScanNet, Matterport3D, ARKitScenes, DL3DV）的 544k 个经过质量验证的 SFT 样本。
目标：确保生成的视图遵循请求的运动并保留场景布局。

为了平衡直接回答与使用模拟器的能力，设计了以下奖励机制：

第一阶段（探索与工具获取） ：防止策略崩溃为直接回答，并教有效交互：
ri(1)=riem+λfmtrifmt+λusemin⁡(nitool,c)r_i^{(1)} = r_i^{\text{em}} + \lambda_{\text{fmt}} r_i^{\text{fmt}} + \lambda_{\text{use}} \min(n_i^{\text{tool}}, c)ri(1)=riem+λfmtrifmt+λusemin(nitool,c)
第二阶段（选择性具象化） ：仅在模拟器能提升直接回答效果时才鼓励使用：
Δi=ei−egdirect\Delta_i = e_i - e^{\text{direct}}gΔi=ei−egdirect
ri(2)=riem+λfmtrifmt+λusemin⁡(nitool,c)+αmax⁡(0,Δi)−βmax⁡(0,−Δi)r_i^{(2)} = r_i^{\text{em}} + \lambda{\text{fmt}} r_i^{\text{fmt}} + \lambda_{\text{use}} \min(n_i^{\text{tool}}, c) + \alpha \max(0, \Delta_i) - \beta \max(0, -\Delta_i)ri(2)=riem+λfmtrifmt+λusemin(nitool,c)+αmax(0,Δi)−βmax(0,−Δi)

RL 参数：

工作流程模式对比：