斯坦福李飞飞团队：低成本双目相机，强化机器人模仿学习能力

仅用低成本双目相机+隐式几何融合，就能让机器人获得媲美3D感知的能力。

------为模仿学习打造更好视觉模块

[01 StereoPolicy核心逻辑：双目特征融合，隐式3D感知](#01 StereoPolicy核心逻辑：双目特征融合，隐式3D感知)

[02 实验验证](#02 实验验证)

[03 价值与局限：落地可行，仍有挑战](#03 价值与局限：落地可行，仍有挑战)

[1. 核心价值：低成本、强泛化、易落地](#1. 核心价值：低成本、强泛化、易落地)

[2. 现存局限：极端场景仍不足](#2. 现存局限：极端场景仍不足)

[04 双目隐式几何，操控新范式](#04 双目隐式几何，操控新范式)

在机器人操控领域，单目视觉长期是主流方案。但单目视觉天生缺失精准深度信息，面对杂乱场景、透明/反光物体（如玻璃杯、金属杯）或精细操作（如插 Toast、挂杯子）时，空间感知模糊，操作成功率大幅下滑。

与此同时，RGB-D、点云等3D方案虽能提供深度，却受传感器噪声、标定复杂、数据稀缺、推理延迟高等问题制约，难以规模化落地。

斯坦福大学李飞飞团队推出的StereoPolicy，提出用同步双目图像直接增强机器人视觉运动策略。

该方法无需复杂相机标定、不用重建深度图或点云，仅通过双目特征融合，就能让机器人获得精准空间感知，在仿真与真实场景中全面超越单目、RGB-D、点云等基线，为机器人3D感知提供了低成本、高适配的新范式。

01 StereoPolicy核心逻辑：双目特征融合，隐式3D感知

StereoPolicy的核心设计思路是：

不用显式重建3D，直接用同步双目图像对，通过预训练2D编码器+立体Transformer，隐式捕捉空间对应与视差线索。

整体框架简洁高效，可无缝适配扩散策略与预训练VLA模型，无需修改骨干网络，兼顾兼容性与扩展性。

▲StereoPolicy 框架：双目特征提取 + 立体 Transformer 融合

StereoPolicy采用"分编后融"策略，先独立处理左右目图像，再融合特征。

具体来说，对同步双目图像（左目、右目），分别用共享权重的预训练 2D 视觉编码器（如 ResNet18、DINOv2）提取单目特征图。

共享权重可保证左右目特征空间一致，避免几何错位，同时复用2D预训练模型的强大语义与特征提取能力，弥补3D模型泛化不足的短板。

为增强几何推理，外部视角图像会额外拼接冻结的DINOv2特征（腕部视角因域差异不添加），补充单目先验，提升弱纹理区域的特征可靠性。

提取左右目特征后，核心模块立体Transformer通过交替自注意力与交叉注意力，融合双目特征。

自注意力捕捉单目图像内像素级关联，交叉注意力聚焦左右目间空间对应关系，同时引入2D旋转位置编码（2D RoPE），强化跨视角位置推理，让模型隐式学习视差与空间几何，无需显式计算深度。

这一设计的关键价值：避开显式3D重建的计算开销与噪声干扰，同时保留2D预训练特征的泛化能力，让模型既懂语义，又懂空间。

StereoPolicy可灵活集成两类主流机器人策略：

StereoPolicy-DP：面向从 scratch 训练的扩散策略，将融合后的立体特征作为条件输入去噪网络，让动作生成融入隐式空间信息，提升精细操作精度；
StereoPolicy-VLA：面向预训练视觉-语言-动作（VLA）模型，将单目嵌入替换为立体特征，轻量微调即可适配双目输入，无需重训骨干，高效增强VLA模型空间感知。